Часто можно услышать, что любая разметка -- это форма интерпретации или анализа. Хотя четко разграничить "объективную" и "субъективную" информацию каким-нибудь универсальным способом действительно трудно, а может, и невозможно, справедливо также и то, что утверждения, касающиеся последней, обычно считаются более полемичными, чем утверждения, касающиеся первой. Многие школы поэтому предпочитают фиксировать такие интерпретации, только если возможно предупредить читателя о том, что они считаются более спорными (открытыми для обсуждения), чем остальная разметка. В этом разделе описаны некоторые элементы, предусмотренные в системе TEI, с помощью которых можно решить подобные задачи.
Интерпретации обычно разбросаны по всему тексту, безотносительно к другим структурным единицам. Следовательно, в качестве первого шага при интенсивном использовании интерпретаций полезно разделить текст на дискретные, идентифицируемые единицы, каждой из которых можно присвоить метку для использования в качестве "канонической ссылки". Чтобы их использование было более легким, эти единицы не должны пересекаться друг с другом или быть вложенными друг в друга. Удобно представлять их с помощью следующего элемента:
Как видно из названия, элемент <s> в большинстве случаев используется (по крайней мере, в лингвистических приложениях) для маркировки орфографических предложений, т.е. единиц, определяемых орфографическими характеристиками, например, пунктуацией. Так, отрывок из романа Джен Эйр, ранее уже использованный в примерах, можно разделить на s-единицы следующим образом:
<pb n='474'> <div1 type=chapter n='38'> <p><s n=001>Reader, I married him.</s> <s n=002>A quiet wedding we had:</s> <s n=003>he and I, the parson and clerk, were alone present.</s> <s n=004>When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐</s> <p><q><s n=005>Mary, I have been married to Mr Rochester this morning.</s></q> ...
Поставленные в этом случае закрывающие теги не являются строго необходимыми, поскольку элементы <s> не могут вкладываться друг в друга: начало одного элемента <s> предполагает, что предыдущий закончен. Если s-единицы отмечены тегами как показано выше, целесообразно отметить тегами весь текст от начала до конца, так что каждое анализируемое слово будет содержаться только в одном элементе <s>, идентификатор которого затем можно использовать для определения уникальной ссылки на него. Если указанные идентификаторы являются уникальными в пределах данного документа, предпочтительнее применять атрибут id вместо атрибута n, который использован в приведенном выше примере.
Элемент сегментации более общего назначения seg уже упоминался в настоящем документе как средство для идентифицирования не отмеченных иным способом целей перекрестных ссылок и гипертекстовых связей (см. раздел Перекрестные ссылки и связи); он идентифицирует фрагмент текста на уровне фраз, которому кодировщик может присвоить определенный пользователем тип, а также определенный пользователем уникальный идентификатор; этим можно воспользоваться для выделения тегами особенностей текста, которые не предусмотрены в опубликованных Принципах TEI.
В Принципах TEI, например, не предусмотрен элемент <apostrophe> для маркировки тех частей текста, где рассказчик непосредственно адресуется к читателю (или слушателю). Один из способов решения этой проблемы рассматривать такие фрагменты как случаи использования элемента <q>, которые отличаются от других только соответствующим значением атрибута who. Возможно, более простым и, безусловно, более общим решением, будет использование элемента seg следующим образом:
<div1 type=chapter n='38'> <p><seg type='apostrophe'>Reader, I married him.</seg> A quiet wedding we had: ...
Атрибут type в элементе <seg> может иметь любое значение и, таким образом, может использоваться для регистрации явлений на уровне фраз, относящихся к любым типам; с практической точки зрения полезно фиксировать в заголовке используемые значения и их значимость.
Элемент <seg> определенного типа (в отличие от элемента <s>, на который он несколько похож) может находиться внутри другого элемента <seg> того же или другого типа. Это позволяет создавать весьма сложные структуры; некоторые примеры приведены выше, в разделе Атрибуты связывания. Однако, поскольку они должны удовлетворять требованию SGML о том, что элементы могут быть вложены друг в друга, но не могут пересекать друг с друга, при этом оказывается невозможным удовлетворить общее требование о связывании интерпретации с произвольными сегментами текста, так как это положение полностью игнорирует иерархию документа. Кроме того, необходимо, чтобы сама интерпретация была представлена единым закодированным значением в атрибуте type.
От этих ограничений свободен элемент <interp>, который позволяет закодировать сложную интерпретирующую информацию относительно простым способом.
Эти элементы позволяют кодировщику указать и класс интерпретации, и конкретный пример класса, который интерпретируется. Таким образом, если с помощью элемента <seg> можно просто указать, что нечто является апострофой (обращением), то с помощью элемента <interp> утверждается, что это пример (апострофа) более широкого класса явлений (риторические фигуры).
Более того, <interp> является пустым элементом, который необходимо связать с отрывком, к которому он относится, с помощью или атрибута ana (описан выше, в разделе Атрибуты связывания), или его собственного атрибута inst. Это означает, что можно выполнить любой вид анализа, не принимая во внимание иерархию документа SGML, а также облегчить группировку случаев анализа конкретного вида. Последнее достигается с помощью элемента специального назначения <interpGrp>.
Например, пусть нужно отметить такие различные аспекты текста, как его тему или предмет, риторические фигуры и места, где происходят отдельные сцены повествования. Различные фрагменты используемого в качестве образца отрывка из Джен Эйр, например, можно связать с такими риторическими фигурами, как апострофа, гипербола и метафора; с такими ссылками на тему (предмет), как церкви, слуги, приготовление пищи, почта и медовый месяц; со сценами, происходящими в церкви, на кухне, в неуказанном месте (в гостиной?).
Эти интерпретации можно размещать в любом месте элемента <text>; однако, как показывает практика, лучше всего помещать их все в одном месте (например, в отдельном разделе вводной или заключительной части), как это сделано в следующем примере:
<back> <div1 type='Interpretations'> <interp id='fig-apos' resp='LB, MSM' type='figure of speech' value='apostrophe'> <interp id='fig-hyp' resp='LB, MSM' type='figure of speech' value='hyperbole'> <!-- ... --> <interp id='set-church' resp='LB, MSM' type='setting' value='church'> <!-- ... --> <interp id='ref-church' resp='LB, MSM' type='reference' value='church'> <interp id='ref-serv' resp='LB, MSM' type='reference' value='servants'> <!-- ... --> </p></div>
Очевидную избыточность этого кодирования можно значительно сократить, если воспользоваться элементом <interpGrp>, чтобы сгруппировать все элементы <interp>, у которых общие значения атрибутов. Пример такого кодирования приведен ниже:
<back> <div1 type='Interpretations'> <interpGrp type='figure of speech' resp='LB, MSM'> <interp id='fig-apos' value='apostrophe'> <interp id='fig-hyp' value='hyperbole'> <interp id='fig-meta' value='metaphor'> <!-- ... --> </interpGrp> <interpGrp type='scene-setting' resp='LB, MSM'> <interp id='set-church' value='church'> <interp id='set-kitch' value='kitchen'> <interp id='set-unspec' value='unspecified'> <!-- ... --> </interpGrp> <interpGrp type='reference' resp='LB, MSM'> <interp id='ref-church' value='church'> <interp id='ref-serv' value='servants'> <interp id='ref-cook' value='cooking'> <!-- ... --> </interpGrp> </p></div>
Когда эти элементы интерпретации определены, можно двумя способами связать их с частями текста, к которым они относятся, причем можно воспользоваться как одним, так и обоими способами. Атрибутом ana можно воспользоваться в любом подходящем элементе:
<div1 type=chapter n='38'> <p id='P38.1' ana='set-church set-kitch'> <s id=P38.1.1 ana='fig-apos'>Reader, I married him.</s> ...
В этом примере следует обратить внимание на то, что, поскольку в абзаце упомянуто два места действия (в церкви и на кухне), указаны идентификаторы для обоих.
С другой стороны, элементы <interp> могут указывать на любые части текста, к которым они относятся, с помощью собственного атрибута inst:
<interp id='fig-apos' type='figure of speech' resp='LB, MSM' value='apostrophe' inst='P38.1.1'> <!-- ... --> <interp id='set-church' type='scene-setting' value='church' inst='P38.1' resp='LB, MSM'> <interp id='set-kitchen' type='scene-setting' value='kitchen' inst='P38.1' resp='LB, MSM'> <!-- ... -->
Элемент <interp> не ограничен каким-либо конкретным типом анализа. Рассмотренный выше пример литературного анализа это только одна из возможностей, элемент <interp> можно также эффективно использовать для лингвистического анализа частей речи. Например, предложение, рассмотренное в разделе Атрибуты связывания, предполагает лингвистический анализ, который можно представить следующим образом:
Последние изменения: Суб Июл 4 20:14:10 MSD 1998
Сгенерировано TEItools