Содержание  Вперед

Введение

Система кодирования текстов (TEI) направлена на обеспечение обмена информацией, хранимой в электронной форме. Основное внимание уделяется текстовой информации, но предусмотрены средства и для других форм, например, для графических изображений и звуковой информации. Ее принципы одинаково применимы при создании новых ресурсов и обмене существующими.

Принципы обеспечивают средства, позволяющие сделать ясными определенные особенности текста, причем так, чтобы облегчить обработку этого текста компьютерными программами, работающими на разных машинах. Процедуру выявления особенностей текста мы называем разметкой или кодированием. Любое представление текста на компьютере использует ту или иную форму разметки; одной из причин разработки системы TEI является существование огромного количества взаимно несовместимых систем кодирования, а также увеличение областей использования электронных текстов.

В Принципах TEI для определения схемы кодирования использован стандартный язык обобщенной разметки (SGML). SGML является международным стандартом (ISO 8879), все шире используемым в индустрии обработки информации. SGML позволяет формально определить схему кодирования в терминах элементов и атрибутов, а также с помощью правил, управляющих их размещением в тексте. Использование SGML в TEI усложняет систему, но делает ее универсальной, поскольку нет принципиальных отличий от других схем разметки SGML, и благодаря этому любое программное обеспечение общего назначения, которое может работать с SGML, может обрабатывать TEI-совместимые тексты.

TEI поддерживают Association for Computers and the Humanities (Ассоциация по компьютерам и гуманитарным наукам), Association for Computational Linguistics (Ассоциация по вычислительной лингвистике) и Association for Literary and Linguistic Computing (Ассоциация по компьютерным технологиям в литературе и лингвистике). Финансирование осуществляют U.S. National Endowment for the Humanities (Американский Национальный фонд пожертвований на гуманитарные науки), Directorate General XIII of the Commission of the European Communities (XIII Управление комиссии Европейского сообщества), Andrew W. Mellon Foundation (Фонд Эндрю У. Меллона) и Social Science and Humanities Research Council of Canada (Совет по социальным наукам и гуманитарным исследованиям Канады). Принципы системы TEI опубликованы в мае 1994 года, после шести лет разработки, в которую были вовлечены многие сотни ученых различных специальностей из разных стран мира.

В начале разработки общие цели системы TEI были сформулированы в заключительном отчете конференции по планированию работ, проведенной в Vassar College (Колледж Вассар), Нью-Йорк, в ноябре 1987 года; по этим наброскам был затем разработан ряд проектировочных документов. Согласно этим документам, в основу TEI должны быть положены следующие принципы:

Мир гуманитарных наук велик и разнообразен. Чтобы система с данными принципами стала широко распространенной, важно гарантировать, что:

  1. общее ядро текстовых функций легко выделяется;
  2. дополнительные специальные функции можно легко добавить в текст (или удалить из него);
  3. имеется возможность нескольких параллельных кодировок одной и той же функции;
  4. богатство разметки определяется пользователем, а набор минимальных необходимых условий очень невелик;
  5. доступна соответствующая документация по текстам и их кодированию.

В настоящем документе описано только небольшое подмножество из обширного набора элементов SGML, которое называется TEI Lite, и приведены рекомендации, вытекающие из целей этой разработки.

Была предпринята попытка выделить из нескольких сотен элементов SGML, определенных полной схемой TEI, полезный "стартовый набор", в который вошли бы элементы, необходимые почти каждому пользователю. Опыт работы с TEI Lite будет чрезвычайно полезен для понимания полного TEI DTD и при определении того, какие необязательные части полного DTD необходимы для работы с конкретными типами текстов.

Цели, поставленные при выборе этого подмножества элементов, можно сформулировать следующим образом:

Читатель может сам судить о том, насколько удалось достичь этих целей. Во время написания уверенность разработчиков в том, что поставленные цели достигнуты хотя бы частично, подкреплялась практическим использованием результатов для кодирования реальных текстов. Оксфордский Архив использует TEI Lite, когда переводит тексты хранимых документов из их исходных разметок в SGML; Центры электронных текстов университета Вирджинии и Мичиганского университета используют TEI Lite для кодирования своих документов. И в самой системе TEI используется TEI Lite, в ее текущей технической документации включая этот документ.

Хотя этот документ писался как автономный, что обычно для учебных текстов, читатель должен понимать, что здесь приведены далеко не все подробности схемы кодирования TEI. Все элементы, описанные здесь, полностью документированы в Принципах TEI, которые следует рассматривать как авторитетный источник не только по этим элементам, но и по многим другим, не упомянутым в настоящем документе. Предполагается, что читатель имеет некоторые базисные знания SGML.


  Содержание  Вперед

Последние изменения: Суб Июл 4 20:13:45 MSD 1998
Сгенерировано TEItools