Назад  Содержание  Вперед

Имена, даты, числа и сокращения

В системе TEI определены элементы для большого числа "подобных данным" сведений, которые могут появляться почти в любом месте текстов практически всех типов. Эти сведения могут представлять особый интерес для целого ряда дисциплин; они все связаны с объектами, внешними по отношению к собственно тексту. Ими могут быть имена людей, названия местностей, числа, даты. Они также создают определенные проблемы для многих приложений естественно-языковой обработки (NLP-приложений), поскольку существует множество способов представления подобных объектов в тексте. Описанные здесь элементы делают эти сведения явными и, таким образом, уменьшают сложность обработки содержащих их текстов.

Имена и называющие строки

Называющая строка это фраза, представляющая собой ссылку на определенное лицо, место, объект и т.п. Для обозначения таких строк предусмотрено два элемента:

<rs>
содержит имя общего назначения или называющую строку. Предусмотрены следующие атрибуты:

type
более конкретно определяет объект, упомянутый в называющей строке. Может принимать значения person (лицо), place (место), ship (корабль), element (элемент) и т.д.

<name>
содержит имя собственное, которое может представлять собой фразу. Предусмотрены следующие атрибуты:

type
указывает тип объекта, носящего данное имя.

Атрибут type используется для различения, например, имен людей, названий местностей и названий организаций, там, где это возможно:

<q>My dear <rs type=person>Mr. Bennet</rs>, </q>
said his lady to him one day, <q>have you heard
that <rs type=place>Netherfield Park</rs> is let
at last?</q>
It being one of the principles of the
<rs type=organization>Circumlocution Office</rs> never,
on any account whatsoever, to give a straightforward answer,
<rs type=person>Mr Barnacle</rs> said, <q>Possibly.</q>

Как показано в следующем примере, элемент <rs> можно использовать для любой ссылки на лицо, место и т.д., причем не обязательно, чтобы в этой ссылке было имя собственное.

<q>My dear <rs type=person>Mr. Bennet</rs>,</q>
said <rs type=person>his lady</rs> to him
one day...

Элемент <name>, напротив, предназначен только для определенного типа называющих строк, которые содержат только имена собственные; этот элемент можно использовать синонимично с элементом <rs>, или вставить его в элемент <rs>, если называющая строка содержит и имена собственные, и другие существительные.

Просто обозначить тегом что-либо как имя обычно недостаточно для автоматического перевода личных имен в канонические формы, что обычно требуется для справочных целей. Имя, как оно появляется в тексте, может быть неверно написанным, неполным или неправильным. Более того, префиксы перед именами, такие как van или de la могут входить или не входить в принятую для ссылок форму имен, что зависит от языка и страны происхождения носителя данного имени.

Для преодоления таких трудностей в этих и подобных им элементах можно воспользоваться следующими атрибутами:

key
обеспечивает альтернативный идентификатор для объекта, носящего данное имя, подобный ключу записи в базе данных.

reg
дает нормализованную или исправленную форму использованного имени.

Атрибут key полезен в качестве средства, позволяющего собрать вместе все ссылки на данное лицо или место, разбросанные по всему документу:

  <q>My dear <rs type=person key=BENM1>Mr. Bennet</rs>,
  </q> said <rs type=person key=BENM2>his lady</rs>
  to him one day, <q>have you heard that
  <rs type=place key=NETP1>Netherfield Park</rs>
  is let at last?</q>

Этот способ применения следует отличать от использования атрибута reg (нормализация), который позволяет обозначить стандартную форму называющей строки, как показано в приведенном ниже примере:

  <name type=person key=WADLM1 reg='de la Mare, Walter'>
     Walter de la Mare
  </name>
  was born at
  <name key=Ch1 type=place>Charlton</name>, in
  <name key=KT1 type=county>Kent</name>, in 1873.

Более детальная разметка имен, т.е. присвоение тегов компонентам имен собственных, также возможна, для этого используется дополнительный набор тегов для имен и дат.

Дата и время

Теги для более детального кодирования времени и даты включают в себя следующее:

<date>
содержит дату в любом формате. Допускаются следующие атрибуты:

calendar
означает систему счисления или календарь, которому соответствует дата.

value
дает значение даты в какой-либо стандартной форме, обычно в формате гггг-мм-дд.

<time>
содержит фразу, определяющую время суток в любом формате. Атрибуты включают:

value
дает значение времени в стандартной форме.

Атрибут value определяет нормализованную форму для даты или времени, используя какой либо признанный формат, например, ISO 8601. Неполные даты или время (например, "1990", "сентябрь 1990", "около двенадцати") обычно можно выразить, просто опустив часть полного значения; с другой стороны, неточные даты или время (например, "в начале августа", "где-то между десятью и двенадцатью") можно выразить через диапазон дат или интервал времени. Если одна из границ такого диапазона известна точно (например, "еще до 1230 года", "спустя несколько дней после Хэллоуина"), можно воспользоваться атрибутом exact, чтобы отметить этот факт.

Примеры:

<date value='1980-02-21'>21 Feb 1980</date>
<date value='1990'>1990</date>
<date value='1990-09'>September 1990</date>
Given on the <date value='1977-06-12'>Twelfth Day of June
in the Year of Our Lord One Thousand Nine Hundred and
Seventy-seven of the Republic the Two Hundredth and first
and of the University the Eighty-Sixth.</date>
<l>specially when it's nine below zero
<l>and <time value='15:00'>three o'clock in the afternoon</time>

Числа

Числа могут быть записаны как буквами, так и цифрами (двадцать один, xxi, 21), и их представление зависит от языка (так, по-английски следует писать 5th, тогда как по-гречески 5.; число, в английском тексте представленное как 123,456.78, во французском будет выглядеть как 123.456,78). При естественно-языковой обработке и в приложениях машинного перевода часто бывает полезным установить различие между числами и более "лексическими" частями текста. В других приложениях важно записать значение числа в стандартной системе. Элемент <num> обеспечивает эту возможность:

<num>
содержит число, записанное в любой форме. Предусмотрены следующие атрибуты:

type
указывает тип числового значения. Предусмотрены следующие значения: fraction (дробь), ordinal (для порядковых номеров, например, 21st), percentage (процент) и cardinal (абсолютное число, например, "21", "21.5" и т.п.).

value
содержит значение числа в форме, стандартной для приложения.

Например:

<num value='33'>xxxiii</num>
<num type=cardinal value='21'>twenty-one</num>
<num type=percentage value='10'>ten percent</num>
<num type=percentage value='10'>10%</num>
<num type=ordinal value='5'>5th</num>

Сокращения и их полные формы

Подобно именам, датам и числам, сокращения можно записывать как в собственно сокращенной, так и в полной форме; их можно оставить не обозначенными или закодировать с помощью следующего элемента:

<abbr>
содержит сокращение любого типа. Предусмотрены следующие атрибуты:

expan
содержит полную форму сокращения.

type
позволяет указать тип сокращения согласно принятой классификации. Предусмотрены следующие значения: contraction, suspension, brevigraph, superscription и acronym. Атрибуту type можно также присвоить такие значения, как title (для названий в адресах), geographic, organization и т.д., чтобы описать объект, на который ссылаются.

Элемент <abbr> также полезен в качестве средства для обозначения полу-лексических единиц, например, акронимов или жаргонизмов:

We can sum up the above discussion as follows:  the identity of a
<abbr>CC</abbr> is defined by that calibration of values which
motivates the elements of its <abbr>GSP</abbr>;
Every manufacturer of <abbr>3GL</abbr> or <abbr>4GL</abbr>
languages is currently nailing on <abbr>OOP</abbr> extensions

Атрибут type можно использовать для выделения типов сокращений по их функции, а атрибут expan используется для определения полной формы сокращений:

 <name><abbr type=title expan='Doctor'>Dr.</abbr>
 <abbr type=initial expan='Marilyn'>M.</abbr>
 Deegan</name>
 is the Director of the
 <abbr expan='Computers in Teaching Initiative' type=acronym>
 CTI</abbr> Centre for Textual Studies.

Этот элемент особенно полезен при работе с рукописными материалами, в которых сокращения используются очень часто.

Адреса

Элемент <address> используется для обозначения почтовых адресов всех видов. Он содержит один или несколько элементов <addrLine>, по одному для каждой строки адреса.

address
содержит почтовый или другой адрес, например, издателя, организации или частного лица.

addrLine
содержит одну строку почтового или другого адреса.

Вот простой пример:

<address>
<addrLine>Computer Center (M/C 135)</addrLine>
<addrLine>1940 W. Taylor, Room 124</addrLine>
<addrLine>Chicago, IL 60612-7352</addrLine>
<addrLine>U.S.A.</addrLine>
</address>

Можно выделить в адресе еще более мелкие части, воспользовавшись элементом name, который описан выше (раздел Имена и называющие строки).

<address>
<addrLine>Computer Center (M/C 135)</addrLine>
<addrLine>1940 W. Taylor, Room 124</addrLine>
<addrLine><name type=city>Chicago</name>, IL 60612-7352</addrLine>
<addrLine><name type>=country>USA</name></addrLine>
</address>

Назад  Содержание  Вперед

Последние изменения: Суб Июл 4 20:14:03 MSD 1998
Сгенерировано TEItools