Интерпретация и анализ

Часто можно услышать, что любая разметка -- это форма интерпретации или анализа. Хотя четко разграничить "объективную" и "субъективную" информацию каким-нибудь универсальным способом действительно трудно, а может, и невозможно, справедливо также и то, что утверждения, касающиеся последней, обычно считаются более полемичными, чем утверждения, касающиеся первой. Многие школы поэтому предпочитают фиксировать такие интерпретации, только если возможно предупредить читателя о том, что они считаются более спорными (открытыми для обсуждения), чем остальная разметка. В этом разделе описаны некоторые элементы, предусмотренные в системе TEI, с помощью которых можно решить подобные задачи.

Орфография

Интерпретации обычно разбросаны по всему тексту, безотносительно к другим структурным единицам. Следовательно, в качестве первого шага при интенсивном использовании интерпретаций полезно разделить текст на дискретные, идентифицируемые единицы, каждой из которых можно присвоить метку для использования в качестве "канонической ссылки". Чтобы их использование было более легким, эти единицы не должны пересекаться друг с другом или быть вложенными друг в друга. Удобно представлять их с помощью следующего элемента:

<s>

идентифицирует s-единицу (сегмент) в документе, устанавливая простую систему канонических ссылок, которая охватывает весь текст. Предусмотрены следующие атрибуты:

type: определяет тип единицы (например, declarative (повествовательный), interrogative (вопросительный) и т.п.)

Как видно из названия, элемент <s> в большинстве случаев используется (по крайней мере, в лингвистических приложениях) для маркировки орфографических предложений, т.е. единиц, определяемых орфографическими характеристиками, например, пунктуацией. Так, отрывок из романа Джен Эйр, ранее уже использованный в примерах, можно разделить на s-единицы следующим образом:

<pb n='474'>
<div1 type=chapter n='38'>
<p><s n=001>Reader, I married him.</s>
<s n=002>A quiet wedding we had:</s>
<s n=003>he and I, the parson and clerk, were alone present.</s>
<s n=004>When we got back from church, I went
into the kitchen of the manor-house, where Mary was cooking the dinner,
and John cleaning the knives, and I said &dash;</s>
<p><q><s n=005>Mary, I have been married to Mr Rochester
this morning.</s></q> ...

Поставленные в этом случае закрывающие теги не являются строго необходимыми, поскольку элементы <s> не могут вкладываться друг в друга: начало одного элемента <s> предполагает, что предыдущий закончен. Если s-единицы отмечены тегами как показано выше, целесообразно отметить тегами весь текст от начала до конца, так что каждое анализируемое слово будет содержаться только в одном элементе <s>, идентификатор которого затем можно использовать для определения уникальной ссылки на него. Если указанные идентификаторы являются уникальными в пределах данного документа, предпочтительнее применять атрибут id вместо атрибута n, который использован в приведенном выше примере.

Элементы интерпретации общего назначения

Элемент сегментации более общего назначения seg уже упоминался в настоящем документе как средство для идентифицирования не отмеченных иным способом целей перекрестных ссылок и гипертекстовых связей (см. раздел Перекрестные ссылки и связи); он идентифицирует фрагмент текста на уровне фраз, которому кодировщик может присвоить определенный пользователем тип, а также определенный пользователем уникальный идентификатор; этим можно воспользоваться для выделения тегами особенностей текста, которые не предусмотрены в опубликованных Принципах TEI.

В Принципах TEI, например, не предусмотрен элемент <apostrophe> для маркировки тех частей текста, где рассказчик непосредственно адресуется к читателю (или слушателю). Один из способов решения этой проблемы рассматривать такие фрагменты как случаи использования элемента <q>, которые отличаются от других только соответствующим значением атрибута who. Возможно, более простым и, безусловно, более общим решением, будет использование элемента seg следующим образом:

<div1 type=chapter n='38'>
<p><seg type='apostrophe'>Reader, I married him.</seg>
A quiet wedding we had: ...

Атрибут type в элементе <seg> может иметь любое значение и, таким образом, может использоваться для регистрации явлений на уровне фраз, относящихся к любым типам; с практической точки зрения полезно фиксировать в заголовке используемые значения и их значимость.

Элемент <seg> определенного типа (в отличие от элемента <s>, на который он несколько похож) может находиться внутри другого элемента <seg> того же или другого типа. Это позволяет создавать весьма сложные структуры; некоторые примеры приведены выше, в разделе Атрибуты связывания. Однако, поскольку они должны удовлетворять требованию SGML о том, что элементы могут быть вложены друг в друга, но не могут пересекать друг с друга, при этом оказывается невозможным удовлетворить общее требование о связывании интерпретации с произвольными сегментами текста, так как это положение полностью игнорирует иерархию документа. Кроме того, необходимо, чтобы сама интерпретация была представлена единым закодированным значением в атрибуте type.

От этих ограничений свободен элемент <interp>, который позволяет закодировать сложную интерпретирующую информацию относительно простым способом.

<interp>

содержит интерпретирующую аннотацию, которую можно связать с некоторой частью текста. Предусмотрены следующие атрибуты:

value: идентифицирует конкретное аннотируемое явление.
resp: указывает, кто является ответственным за данную интерпретацию.
type: указывает, явление какого типа отмечается в данном отрывке. Предусмотрены значения image (изображение), character (символ), theme (тема), allusion (аллюзия) или название конкретного типа текста, примеры которого идентифицированы.
inst: указывает примеры анализа или интерпретации, представленные текущим элементом.

<interpGrp>

объединяет элементы interp.

Эти элементы позволяют кодировщику указать и класс интерпретации, и конкретный пример класса, который интерпретируется. Таким образом, если с помощью элемента <seg> можно просто указать, что нечто является апострофой (обращением), то с помощью элемента <interp> утверждается, что это пример (апострофа) более широкого класса явлений (риторические фигуры).

Более того, <interp> является пустым элементом, который необходимо связать с отрывком, к которому он относится, с помощью или атрибута ana (описан выше, в разделе Атрибуты связывания), или его собственного атрибута inst. Это означает, что можно выполнить любой вид анализа, не принимая во внимание иерархию документа SGML, а также облегчить группировку случаев анализа конкретного вида. Последнее достигается с помощью элемента специального назначения <interpGrp>.

Например, пусть нужно отметить такие различные аспекты текста, как его тему или предмет, риторические фигуры и места, где происходят отдельные сцены повествования. Различные фрагменты используемого в качестве образца отрывка из Джен Эйр, например, можно связать с такими риторическими фигурами, как апострофа, гипербола и метафора; с такими ссылками на тему (предмет), как церкви, слуги, приготовление пищи, почта и медовый месяц; со сценами, происходящими в церкви, на кухне, в неуказанном месте (в гостиной?).

Эти интерпретации можно размещать в любом месте элемента <text>; однако, как показывает практика, лучше всего помещать их все в одном месте (например, в отдельном разделе вводной или заключительной части), как это сделано в следующем примере:

<back>
<div1 type='Interpretations'>
<interp id='fig-apos'  resp='LB, MSM'
     type='figure of speech' value='apostrophe'>
<interp id='fig-hyp'   resp='LB, MSM'
     type='figure of speech' value='hyperbole'>
<!-- ... -->
<interp id='set-church'  resp='LB, MSM'
     type='setting' value='church'>
<!-- ... -->
<interp id='ref-church'  resp='LB, MSM'
     type='reference' value='church'>
<interp id='ref-serv'    resp='LB, MSM'
     type='reference' value='servants'>
<!-- ... -->
</p></div>

Очевидную избыточность этого кодирования можно значительно сократить, если воспользоваться элементом <interpGrp>, чтобы сгруппировать все элементы <interp>, у которых общие значения атрибутов. Пример такого кодирования приведен ниже:

<back>
<div1 type='Interpretations'>
<interpGrp type='figure of speech' resp='LB, MSM'>
<interp id='fig-apos' value='apostrophe'>
<interp id='fig-hyp'  value='hyperbole'>
<interp id='fig-meta' value='metaphor'>
<!-- ... -->
</interpGrp>
<interpGrp type='scene-setting' resp='LB, MSM'>
<interp id='set-church'  value='church'>
<interp id='set-kitch'   value='kitchen'>
<interp id='set-unspec'  value='unspecified'>
<!-- ... -->
</interpGrp>
<interpGrp type='reference' resp='LB, MSM'>
<interp id='ref-church' value='church'>
<interp id='ref-serv'   value='servants'>
<interp id='ref-cook'   value='cooking'>
<!-- ... -->
</interpGrp>
</p></div>

Когда эти элементы интерпретации определены, можно двумя способами связать их с частями текста, к которым они относятся, причем можно воспользоваться как одним, так и обоими способами. Атрибутом ana можно воспользоваться в любом подходящем элементе:

<div1 type=chapter n='38'>
<p id='P38.1' ana='set-church set-kitch'>
<s id=P38.1.1 ana='fig-apos'>Reader, I married him.</s>
...

В этом примере следует обратить внимание на то, что, поскольку в абзаце упомянуто два места действия (в церкви и на кухне), указаны идентификаторы для обоих.

С другой стороны, элементы <interp> могут указывать на любые части текста, к которым они относятся, с помощью собственного атрибута inst:

<interp id='fig-apos' type='figure of speech' resp='LB, MSM'
   value='apostrophe' inst='P38.1.1'>
<!-- ... -->
<interp id='set-church'  type='scene-setting' value='church'
   inst='P38.1' resp='LB, MSM'>
<interp id='set-kitchen' type='scene-setting' value='kitchen'
   inst='P38.1' resp='LB, MSM'>
<!-- ... -->

Элемент <interp> не ограничен каким-либо конкретным типом анализа. Рассмотренный выше пример литературного анализа это только одна из возможностей, элемент <interp> можно также эффективно использовать для лингвистического анализа частей речи. Например, предложение, рассмотренное в разделе Атрибуты связывания, предполагает лингвистический анализ, который можно представить следующим образом:

Назад Содержание Вперед

Последние изменения: Суб Июл 4 20:14:10 MSD 1998
Сгенерировано TEItools