Назад  Содержание  Вперед

Кодирование основной части

Как было указано выше, простой документ TEI на текстовом уровне состоит из следующих элементов:

<front>
содержит различную вступительную информацию (заголовки, титульный лист, предисловия, посвящения и т.п.), которую размещают перед основным текстом.

<group>
содержит несколько монолитных текстов или групп текстов.

<body>
содержит всю основную часть одного монолитного текста, исключая то, что относится к вводной или закрывающей частям текста.

<back>
содержит различные приложения и т.п., которые располагаются после основной части текста.

Элементы, характерные для вводной и завершающей частей описаны ниже, в разделе Вводная и закрывающая части. В данном разделе обсуждаются элементы, размечающие основную часть текста.

Элементы для разделения текста

Основная часть прозаического текста может представлять собой либо просто набор абзацев, либо эти абзацы могут быть сгруппированы в главы, разделы, подразделы и т.д. В первом случае каждый абзац отмечается тегом <p>. Во втором случае элемент <body> можно разделить либо на ряд элементов <div1>, либо на ряд элементов <div>, каждый из которых тоже можно разделить на более мелкие единицы, как описано ниже:

<p>
отмечает абзацы написанного прозой текста.

<div>
содержит раздел вводного, основного или закрывающего текста.

<div1>
содержит раздел первого уровня вводного, основного или закрывающего текста (это самый высокий уровень, если элемент <div0> не используется, или второй уровень, если он используется).

Если необходимы структурные разделы более мелкие, чем <div1>, то элемент <div1> можно разделить на элементы <div2>, а элементы <div2> на еще меньшие элементы <div3> и т.д., до уровня <div7>. Если в структуре имеется более семи уровней, следует либо изменить набор тегов TEI, чтобы воспринимались элементы <div8> и т.д., либо использовать ненумерованный элемент <div>, поскольку его можно разделять на более мелкие элементы <div> без ограничений на количество уровней.

У всех этих элементов разделов существуют следующие три атрибута:

type
Этот атрибут дает принятое название для данной категории раздела текста. Типичные значения этого атрибута -- "Book (книга)", "Chapter (глава)", "Poem (стихотворение)" и т.д. Среди других возможных значений -- "Group (группа)" для групп стихотворений и т.п., рассматриваемых как одна единица, "Sonnet (сонет)", "Speech (реплика)" и "Song (песня)". Следует отметить, что любое значение атрибута type, присвоенное первому из элементов <div>, <div1>, <div2> и т.д. в тексте, предполагается относящимся ко всем последующим элементам <div>, <div1> и т.д. в пределах того же элемента <body>. Это означает, что следует задавать значение type для первого элемента раздела каждого типа и при каждом изменении этого значения.

id
Этот атрибут представляет собой уникальный идентификатор раздела, который можно использовать для перекрестных ссылок или других связей с этим разделом, например, для комментариев, как это описано в разделе Перекрестные ссылки и связи. Часто бывает полезным использовать атрибут id для каждой большой структурной единицы в тексте и присваивать значения идентификатора по какой-либо системе, например, дописывать номер раздела к короткому коду из названия рассматриваемого произведения, как это сделано в приведенных ниже примерах.

n
Атрибут n означает краткое (но понятное) название или номер раздела, которые можно использовать вместо идентификатора для обозначения этого раздела. Если уже существует общепринятая форма ссылок или сокращений для частей некоторого текста (например, шаблон книга/глава/стих для цитат из Библии), то именно в атрибуте n можно зафиксировать это.

Атрибуты id и n настолько полезны на практике, что они предусмотрены для любого элемента в TEI DTD: они являются глобальными атрибутами. Другие глобальные атрибуты, определенные в схеме TEI Lite, рассмотрены в разделе Атрибуты связывания.

Значение каждого атрибута id должно быть уникальным в пределах одного документа. Один из простых способов обеспечить это заключается в том, что атрибуту id присваиваются значения, отражающие иерархическую структуру документа. Например, Богатство государств Смита в первом издании состояло из пяти книг, каждая из которых разделялась на главы, а некоторые из глав были дополнительно разбиты на разделы. Для такой структуры можно определить значения атрибута id следующим образом:

<div1 id=WN1 n='I' type='book'>
  <div2 id=WN101 n='I.1' type='chapter'>
   ... </div2>
  <div2 id=WN102 n='I.2' type='chapter'>
   ... </div2>
   ...
  <div2 id=WN110 n='I.10' type='chapter'>
     <div3 id=WN1101 n='I.10.1' type=part>
      ... </div3>
     <div3 id=WN1102 n='I.10.2' type=part>
      ... </div3>
  </div2>
  ...
</div1>
<div1 id=WN2 n='II' type='book'>
   ....
</div1>
...

Для атрибутов id и n можно использовать и другую схему нумерации; это часто полезно там, где использована каноническая схема ссылок, которая не соответствует структуре произведения. Например, пусть роман разделен на книги, каждая из которых состоит из глав, причем главы пронумерованы последовательно во всем произведении, а не в пределах каждой книги. В этом случае можно воспользоваться следующей схемой:

<div1 id=TS01 n='1' type='Volume'>
   <div2 id=TS011 n='1' type='Chapter'>
      ...
   <div2 id=TS012 n='2'>
      ...
</div1>
<div1 id=TS02 n='2' type='Volume'>
   <div2 id=TS021 n='3'type='Chapter'>
      ...
   <div2 id=TS022 n='4'>
      ...
</div1>

В этом примере произведение состоит из двух томов, каждый из которых содержит две главы. Главы пронумерованы как обычно принято, от 1 до 4, но структура указанных значений id такова, что можно получить дополнительную информацию о месте главы в произведении, как если бы главы были пронумерованы 1.1, 1.2, 2.1, 2.2.

Заголовки и заключения

Каждый элемент <div>, <div1>, <div2> и т.д. может иметь название или заголовок вначале и (реже) заключение, например, "Конец главы 1". Чтобы определить заголовки и заключения, можно воспользоваться следующими элементами:

<head>
содержит любые заголовки, например, название раздела, заголовок списка или глоссария.

<trailer>
содержит заключающее название или окончание, которое располагается после текста раздела.

Некоторые другие элементы, которые могут потребоваться в начале или в конце раздела текста, описаны ниже, в разделе Вводная часть.

Включать ли заголовки и заключения в транскрипцию - самостоятельно решает специалист, кодирующий текст. Там, где заголовки полностью регулярны (например, "Глава 1") или могут быть выражены как значение атрибута (например, <div1 type='Chapter' n='1'>), их можно опустить; если же заголовки, напротив, содержат уникальный текст, их обязательно следует включить. Например, начало романа Харди Под деревом зеленым можно оформить следующим образом:

<div1 id=UGT1 n='Winter' type='Part'>
<div2 id=UGT11 n='1' type='Chapter'>
<head>Mellstock-Lane</head>
<p>To dwellers in a wood almost every species of tree ...

Проза, стихи и пьесы

Как отмечено выше, абзацы, составляющие отдельные части текста, следует отмечать тегом <p>. Например:

<body>
<p>I fully appreciate Gen. Pope's splendid achievements
with their invaluable results; but you must know that
Major Generalships in the Regular Army, are not as
plenty as blackberries.
</p>
</body>

Предусмотрен ряд различных тегов для кодирования структурных компонентов стихов или текста ролей (пьесы, сценарии фильмов и т.п.):

<l>
содержит одну (возможно, неполную) стихотворную строку. Включает следующие атрибуты:

part
указывает, является ли строка метрически полной. Допустимы следующие значения: F -- для завершающей части неполной строки; Y -- для метрически неполной строки; N -- для полной строки, или если неважно, является ли строка полной или нет; I -- для начальной части неполной строки; M -- для средней части неполной строки.

<lg>
содержит группу стихотворных строк, составляющих формальную единицу, например, строфу, рефрен, стихотворный абзац и т.д.

<sp>
содержит прямую речь персонажа в тексте пьесы (сценария) или отрывок, представляющий таковую в тексте прозаического или стихотворного произведения. Включает следующие атрибуты:

who
указывает (с помощью идентификатора), кто произносит данный текст.

<speaker>
содержит специальную форму заголовка или метки, где указано имя одного или нескольких персонажей, произносящих реплики в пьесе или в некотором фрагменте текста.

<stage>
содержит различные указания для постановки (ремарки) к тексту пьесы или к отрывку пьесы. Включает следующие атрибуты:

type
определяет тип ремарки. Предлагаются следующие значения: entrance (о выходе на сцену), exit (об уходе со сцены), setting (о декорациях и костюмах), delivery (о манере декламации) и т.д.

Вот, например, начало стихотворения, в котором тегами отмечены стихотворные строки и строфы:

<lg n=I>
<l>I Sing the progresse of a
   deathlesse soule,</l>
<l>Whom Fate, with God made,
  but doth not controule,</l>
<l>Plac'd in most shapes; all times
  before the law</l>
<l>Yoak'd us, and when, and since,
  in this I sing.</l>
<l>And the great world to his aged evening;</l>
<l>From infant morne, through manly noone I draw.</l>
<l>What the gold Chaldee, of silver Persian saw,</l>
<l>Greeke brass, or Roman iron, is in this one;</l>
<l>A worke t'out weare Seths pillars, bricke and stone,</l>
<l>And (holy writs excepted) made to yeeld to none,</l>
</lg>

Следует отметить, что элемент <l> отмечает стихотворные, а не типографские строки; из-за этого исходное разбиение на строки в приведенных выше нескольких первых строчках не является очевидным при данном кодировании и может быть потеряно. Если необходимо разметить типографские строки, можно воспользоваться элементом <lb>, который описан в разделе Номера строк и страниц.

Иногда, особенно в пьесах, стихотворные строки разделены на реплики нескольких персонажей. Самый простой способ кодирования в таких случаях - использование атрибута part; это позволяет определить, что строки, разбитые на указанные фрагменты, являются неполными, как в следующем примере:

<div1 type ='Act' n='I'><head>ACT I</head>
<div2 type ='Scene' n='1'><head>SCENE I</head>
<stage rend=italic>
Enter Barnardo and Francisco, two Sentinels, at several doors</stage>
<sp><speaker>Barn<l part=Y>Who's there?
<sp><speaker>Fran<l>Nay, answer me. Stand and unfold yourself.
<sp><speaker>Barn<l part=i>Long live the King!
<sp><speaker>Fran<l part=m>Barnardo?
<sp><speaker>Barn<l part=f>He.
<sp><speaker>Fran<l>You come most carefully upon your hour.

Тем же способом можно воспользоваться, если строфы разделены на реплики двух персонажей:

<sp><speaker>First voice</speaker>
<lg type=stanza part=I>
<l>But why drives on that ship so fast
<l>Withouten wave or wind?
</lg>
<sp><speaker>Second Voice</speaker>
<lg part=F>
<l>The air is cut away before.
<l>And closes from behind.
</lg>

Этот пример показывает, как представить диалог из прозаического произведения в виде отрывка из пьесы. Из этого примера также видно, как использовать атрибут who для того, чтобы указать, кто произносит данные реплики в диалоге.

<sp who=OPI><speaker>The reverend Doctor Opimiam</speaker>
<p>I do not think I have named a single unpresentable fish.
<sp who=GRM><speaker>Mr Gryll</speaker>
<p>Bream, Doctor: there is not much to be said for bream.
<sp who=OPI><speaker>The Reverend Doctor Opimiam</speaker>
<p>On the contrary, sir, I think there is much to be said for him.
In the first place....
<p>Fish, Miss Gryll -- I could discourse to you on fish by
the hour:  but for the present I will forbear...
</sp>

Назад  Содержание  Вперед

Последние изменения: Суб Июл 4 20:13:50 MSD 1998
Сгенерировано TEItools