Назад
Содержание
Электронный титульный лист
Каждый текст TEI имеет заголовок, содержащий информацию,
аналогичную той, что приводится на титульном листе
опубликованного текста. Заголовок вводится с помощью элемента
<teiHeader> и делится на четыре основные части:
- <fileDesc>
- содержит полное
библиографическое описание электронного файла
- <encodingDesc>
- фиксирует связь между
электронным текстом и оригиналом или оригиналами, по которым
он составлен.
- <profileDesc>
- содержит детальное описание
не библиографических аспектов текста, в частности,
используемых в тексте языков и подъязыков; ситуации, в
которой происходило создание текста; участников и их
заданий.
- <revisionDesc>
- содержит историю внесенных
в файл исправлений.
Совокупность или набор текстов, имеющих одни и те же
характеристики, может иметь один заголовок для этой
совокупности и отдельные заголовки для каждого из ее
компонентов. В этом случае атрибут type
указывает тип заголовка.
<teiHeader type=corpus>
вводит заголовок для
информации на уровне совокупности текстов.
Некоторые элементы заголовка содержат довольно пространные
тексты, состоящие из одного или нескольких элементов
<p>. Другие группируются следующим образом:
- Элементы, имена которых оканчиваются на
Stmt (для сведений), обычно
составляют группу элементов, фиксирующих некоторую
структурированную информацию.
- Элементы, имена которых оканчиваются на
Decl (для объявлений), содержат
информацию о применении конкретного кодирования.
- Элементы, имена которых оканчиваются на
Desc (для описаний) содержат
текстовые описания.
Описание файла
Элемент <fileDesc> является обязательным. Он
содержит полное библиографическое описание файла, которое
выполняется с помощью следующих элементов:
- <titleStmt>
- группирует информацию о
названии произведения и о тех, кто несет ответственность
за его содержание.
- <editionStmt>
- группирует информацию,
относящуюся к одной редакции текста.
- <extent>
- описывает приблизительный
размер электронного текста, хранящегося на некотором
носителе, размер указывается в любых удобных
единицах.
- <publicationStmt>
- группирует
информацию, касающуюся публикации или распространения
электронных или других текстов.
- <seriesStmt>
- группирует информацию о
серии (если таковая имеется), к которой принадлежит
данная публикация.
- <notesStmt>
- объединяет все примечания,
содержащие информацию о тексте, которая дополняет ту,
что зафиксирована в других частях библиографического
описания.
- <sourceDesc>
- содержит библиографическое
описание экземпляра текста (или текстов), который служил
оригиналом для создания или генерирования электронного
варианта.
Минимальный заголовок имеет следующую структуру:
<teiHeader>
<fileDesc>
<titleStmt> ... </titleStmt>
<publicationStmt> ... <publicationStmt>
<sourceDesc> ... <sourceDesc>
</fileDesc>
</teiHeader>
Сведения о названии
Внутри элемента <titleStmt> можно использовать
следующие элементы:
- <title>
- содержит название
произведения, будь то статья, книга, журнал или серия,
включая все альтернативные названия или
подзаголовки.
- <author>
- в библиографической ссылке
содержит имя автора (авторов) произведения,
индивидуального или коллективного; это первичные
сведения об ответственности для любой
библиографической единицы.
- <sponsor>
- указывает название
финансирующей организации или учреждения.
- <funder>
- указывает имя лица, название
учреждения или организации, ответственных за изыскание
средств на выполнение проекта или на создание
текста.
- <principal>
- содержит имя главного
разработчика, ответственного за создание электронного
текста.
- <respStmt>
- содержит сведения об
ответственности за содержание текста, редактирование,
запись или серию, если специализированных элементов
для авторов, редакторов и т.д. недостаточно или они не
применяются.
Рекомендуется, чтобы по названию можно было отличить
компьютерный файл от оригинала текста, например:
[заголовок оригинала]: электронная копия
Элемент <respStmt> содержит следующие
компоненты:
- <resp>
- содержит информацию,
описывающую тип персональной интеллектуальной
ответственности за приводимые в тексте сведения.
- <name>
- содержит собственное имя или
название.
Пример:
<titleStmt>
<title>Two stories by Edgar Allen Poe: a machine readable
transcription</title>
<author>Poe, Edgar Allen (1809-1849)
<respStmt><resp>compiled by</resp>
<name>James D. Benson</name></respStmt>
</titleStmt>
Сведения о редакции
В элементе <editionStmt> сгруппирована
информация об одной редакции текста (редакция
понимается как обычно в библиографии), и этот элемент
может включать следующие элементы:
- <edition>
- описывает особенности одной
редакции текста.
- <respStmt>
- содержит сведения об
ответственности за содержание текста, редактирование,
запись или серию, если специализированных элементов
для авторов, редакторов и т.д. недостаточно или они не
применяются.
Пример:
<editionStmt>
<edition n=U2>Третья версия, значительно пересмотренная
<date>1987</date>
</edition>
</editionStmt>
Точно определить, что именно составляет новую редакцию
электронного текста, должен специалист, кодирующий
текст.
Сведения о размере
Элемент <extent> описывает приблизительный
размер файла.
Пример:
<extent>4532 bytes</extent>
Сведения о публикации
Элемент <publicationStmt> является
обязательным. Он может содержать простое описание или
группу элементов, которые описаны ниже:
- <publisher>
- содержит название
организации, ответственной за публикацию или
распространение библиографической единицы.
- <distributor>
- содержит имя лица или
название учреждения, ответственного за распространение
текста.
- <authority>
- содержит имя лица или
название учреждения, ответственного за доступность
электронного файла (не путать с издателем или
распространителем).
Должен быть представлен хотя бы один из этих трех
элементов, если не приводится описание для всей публикации
в целом. Эти элементы, в свою очередь, могут содержать в
себе следующие:
- <pubPlace>
- содержит название места
издания библиографической единицы.
- <address>
- содержит почтовый или любой
другой адрес, например, издателя, организации или
отдельного лица
- <idno>
- содержит любой стандартный или
нестандартный номер, используемый для идентификации
библиографической единицы. Предусмотрены следующие
атрибуты:
- type
- указывает
классификацию, которой соответствует номер,
например, индекс ISBN или другая стандартная
классификация.
- <availability>
- содержит информацию о
доступности текста, например, любые ограничения на его
использование или распространение, авторские права и
т.п. Атрибуты включают:
- status
- содержит код,
определяющий текущую доступность текста. Допустимы
следующие значения: restricted
(ограниченный доступ), unknown
(неопределенный уровень доступа) и
free (свободный доступ).
- <date>
- содержит дату в любом
формате.
Пример:
<publicationStmt>
<publisher>Oxford University Press</publisher>
<pubPlace>Oxford</pubPlace> <date>1989</date>
<idno type=ISBN> 0-19-254705-5</idno>
<availability>Copyright 1989, Oxford University
Press</availability>
</publicationStmt>
Сведения о серии и примечаниях
Элемент <seriesStmt> объединяет информацию о
серии (если она существует), к которой относится
публикация. Он может содержать элементы <title>,
<idno> или <respStmt>.
Элемент <notesStmt>, если он используется,
состоит из одного или нескольких элементов
<note>. Некоторая информация, в обычной
библиографии находящаяся в примечаниях, в TEI кодируется с
помощью специальных элементов.
Описание источников
Обязательный элемент <sourceDesc> фиксирует
подробности об источнике или источниках, на основании
которых создан компьютерный файл. В нем может содержаться
простое описание или библиографическая ссылка, в которой
используется один или несколько следующих элементов:
- <bibl>
- содержит библиографическую
ссылку произвольной структуры, компоненты которой
можно либо явно отметить тегами, либо не выделять.
- <biblFull>
- содержит полностью
структурированную библиографическую ссылку, в которой
присутствуют все компоненты описания файла TEI.
- <listBibl>
- содержит список
библиографических ссылок любого вида.
Примеры:
<sourceDesc>
<bibl>The first folio of Shakespeare, prepared by Charlton
Hinman (The Norton Facsimile, 1968)</bibl>
</sourceDesc>
<sourceDesc>
<scriptStmt id=CNN12>
<bibl><author>CNN Network News
<title>News headlines
<date>12 Jun 1989
</bibl>
</scriptStmt>
</sourceDesc>
Описание кодирования
Элемент <encodingDesc> указывает методы и принципы
редактирования, согласно которым записан текст. Настоятельно
рекомендуется использовать этот элемент. В нем может
содержаться текстовое описание или элементы из следующего
списка:
- <projectDesc>
- подробно описывает цель
создания электронного файла, а также содержит другую
необходимую информацию, касающуюся процедуры компоновки
или комплектования текста.
- <samplingDecl>
- содержит описание причин
и методов, используемых для отбора текстов при создании
совокупности или собрания текстов.
- <editorialDecl>
- содержит подробности о
принципах и практике редактирования, которые применялись
при кодировании текста.
- <tagsDecl>
- содержит подробную
информацию о тегах, примененных в документе SGML.
- <refsDecl>
- указывает, как построены
канонические ссылки в данном тексте.
- <classDecl>
- содержит одну или несколько
таксономий, определяющих все классификаторные коды,
используемые в тексте.
Описание проекта и способа отбора текстов
Примеры использования элементов <projectDesc> и
<samplingDesc>:
<encodingDesc>
<projectDesc>Texts collected for use in the Claremont
Shakespeare Clinic, June 1990.
</projectDesc>
</encodingDesc>
<encodingDesc>
<samplingDecl>Samples of 2000 words taken from the beginning
of the text
</samplingDecl>
</encodingDesc>
Определение способов редактирования
Элемент <editorialDecl> содержит текстовое
описание практических методов, используемых при
кодировании текста. Обычно в этом описании отражены
следующие темы (каждую из которых удобно вводить в виде
отдельного абзаца):
- correction
- определяет, как
именно и при каких обстоятельствах правился текст.
- normalization
- указывает, до
какой степени исходный текст регуляризуется или
нормализуется.
- quotation
- указывает, что было
сделано со знаками кавычек, которые были в оригинале:
были ли они оставлены или заменены объектными
ссылками, отличаются ли друг от друга открывающие и
закрывающие кавычки и т.п.
- hyphenation
- указывает, что было
сделано с дефисами, которые были в оригинале (в
особенности с переносами в конце строк): были ли они
оставлены, заменены объектными ссылками и т.п.
- segmentation
- указывает, как
именно был сегментирован текст, например, по
предложениям, по интонационным единицам, по графемам и
т.п.
- interpretation
- указывает, какая
аналитическая или интерпретируемая информация была
добавлена в текст.
Пример:
<editorialDecl>
<p>The part of speech analysis applied throughout
section 4 was added by hand and has not been
checked.
<p>Errors in transcription controlled by using the
WordPerfect spelling checker.
<p>All words converted to Modern American spelling
using Webster's 9th Collegiate dictionary.
<p>All quotation marks converted to entity
references &odq; and &cdq;.
</editorialDecl>
Объявление тегов, ссылок и классификаций
Элемент <tagsDecl> используется для того, чтобы
обеспечить подробную информацию о тегах SGML, которые
используются в тексте. Этот элемент может содержать
простой список используемых элементов, со счетчиком
появлений для каждого из них, для которого используются
следующие специальные элементы:
- <tagUsage>
- содержит информацию об
использовании конкретного элемента в пределах самого
внешнего элемента <text> документа
TEI. Атрибуты включают:
- gi
- имя (идентификатор)
элемента, отмеченного данным тегом.
- occurs
- указывает количество
появлений этого элемента в тексте.
Элемент <rendition> используется в документе для
того, чтобы указать различные способы выделения элементов
в исходном тексте.
- <rendition>
- содержит информацию о
способе, которым следует выделить один или несколько
элементов.
- <tagUsage>
- содержит информацию об
использовании определенного элемента в пределах
элемента text. Предусмотрены следующие
атрибуты:
- occurs
- указывает число
появлений данного элемента в тексте.
- ident
- указывает число
появлений в тексте данного элемента, который имеет
определенное значение глобального атрибута
id.
- render
- содержит
идентификатор элемента <rendition>, который
определяет, как именно следует выделить данный
элемент.
Например:
<tagsDecl>
<tagUsage gi=text occurs=1>
<tagUsage gi=body occurs=1>
<tagUsage gi=p occurs=12>
<tagUsage gi=hi occurs=6>
</tagsDecl>
Приведенное объявление тегов (искусственное) допустимо
для текста, содержащего двенадцать абзацев в основной
части, причем в ней выделено шесть элементов
<hi>. Следует отметить, что если используется
элемент <tagsDecl>, он должен содержать элемент
<tagUsage> для каждого элемента, выделенного тегом
в соответствующем элементе текста.
Элемент <refsDecl> используется в документе для
фиксирования способа построения стандартной системы ссылок
в кодируемом тексте. В простейшей форме этот элемент
состоит из текстового описания.
Пример:
<refsDecl>
<p>The N attribute on each DIV1 and DIV2 contains the
canonical reference for each such division in the form
XX.yyy where XX is the book number in roman numeral and
yyy is the section number in arabic.
</refsDecl>
Элемент <classDecl> группирует определения или
источники для всех схем классификации, используемых
другими частями заголовка. Должна быть определена по
крайней мере одна такая схема, закодированная с помощью
следующих элементов:
- <taxonomy>
- определяет применяемую для
классификации текстов типологию либо неявно,
посредством библиографических ссылок, либо явно, с
помощью структурированной таксономии.
- <bibl>
- содержит библиографическую
ссылку произвольной структуры, компоненты которой
можно либо явно отметить тегами, либо не выделять.
- <category>
- содержит отдельную
описательную категорию в таксономии, определенной
пользователем; эта категория может быть "вложенной" в
более общую категорию, т.е. иметь в таксономии любой
уровень.
- <catDesc>
- описывает в форме краткого
текстового описания определенную категорию в пределах
таксономии или типологии текста.
В простейшем случае таксономия определяется
библиографической ссылкой, как показано в следующем
примере:
<classDecl>
<taxonomy id='LCSH'>
<bibl>Library of Congress Subject Headings
</bibl>
</taxonomy>
</classDecl>
Специалист, кодирующий электронный текст, может
определить альтернативную (или дополнительную) систему
классификации для специальных целей, как показано
ниже:
<taxonomy id=B>
<bibl>Brown Corpus</bibl>
<category id=B.A><catDesc>Press Reportage
<category id=B.A1><catDesc>Daily</category>
<category id=B.A2><catDesc>Sunday</category>
<category id=B.A3><catDesc>National</category>
<category id=B.A4><catDesc>Provincial</category>
<category id=B.A5><catDesc>Political</category>
<category id=B.A6><catDesc>Sports</category>
...
</category>
<category id=B.D><catDesc>Religion
<category id=B.D1><catDesc>Books</category>
<category id=B.D2><catDesc>Periodicals and tracts</category>
</category>
...
</taxonomy>
Связь между определенным текстом и категорией в такой
таксономии определяется с помощью элемента
<catRef>, который находится внутри элемента
<textClass>, как будет описано ниже.
Описание параметров
Элемент <profileDesc> позволяет регистрировать
информацию, характеризующую различные описательные аспекты
текста, в одном блоке. Этот элемент имеет три необязательных
компонента:
- <creation>
- содержит информацию о
создании текста.
- <langUsage>
- описывает языки, подъязыки,
наречия, диалекты и т.д., встречающиеся в тексте.
- <textClass>
- группирует информацию,
описывающую тип или тему текста в терминах стандартной
классификации, тезаурус и т.п.
Примеры:
<creation>
<date value='1992-08'>August 1992</date>
<name type=place>Taos, New Mexico</name>
</creation>
Элемент <textClass> классифицирует текст, ссылаясь
на систему или системы, определенные в элементе
<classDecl>; может содержать один или несколько
следующих элементов:
- <keywords>
- содержит список ключевых
слов или фраз, идентифицирующих тему или тип
текста. Предусмотрены следующие атрибуты:
- scheme
- указывает управляемый
словарь, в которым определен набор соответствующих
ключевых слов.
- <classCode>
- содержит использованный
для данного текста код классификации по некоторой
стандартной классификации. Предусмотрены следующие
атрибуты:
- scheme
- идентифицирует
используемую систему классификации или
таксономию.
- <catRef>
- указывает одну или несколько
определенных категорий в пределах некоторой таксономии или
типологии текста. Предусмотрены следующие атрибуты:
- target
- идентифицирует
соответствующие категории.
Элемент <keywords> содержит список ключевых слов
или фраз, идентифицирующих тему или тип текста. Атрибут
scheme связывает их с системой классификации, определенной в
элементе <taxonomy>.
<textClass>
<keywords scheme=LCSH>
<list>
<item>English literature -- History and criticism --
Data processing.</item>
<item>English literature -- History and criticism --
Theory etc.</item>
<item>English language -- Style -- Data
processing.</item>
</list>
</keywords>
</textClass>
Описание изменений
Элемент <revisionDesc> обеспечивает протокол
изменений, в котором регистрируется каждое изменение
текста. Протокол может быть составлен как последовательность
элементов <change>, каждый из которых содержит:
- <date>
- содержит дату в любом
формате.
- <respStmt>
- содержит сведения об
ответственности за содержание текста, редактирование,
запись или серию, если специализированных элементов для
авторов, редакторов и т.д. недостаточно или они не
применяются.
- <item>
- содержит один компонент
списка.
Пример:
<revisionDesc>
<change><date>6/3/91:</date>
<respStmt><name>EMB</name><resp>ed.</resp></respStmt>
<item>File format updated</item>
<change><date>5/25/90:</date>
<respSmt><name>EMB</name><resp>ed.</resp>
<item>Stuart's corrections entered</item>
</revisionDesc>
Назад
Содержание
Последние изменения: Суб Июл 4 20:14:21 MSD 1998
Сгенерировано TEItools