Назад  Содержание  Вперед

Национальные алфавиты, диакритические знаки и т.п.

Для тех, кто работает со стандартными формами европейских языков, рекомендации по использованию алфавитов в TEI достаточно просты. Для локального использования можно применять алфавиты, которые поддерживает компьютер и программное обеспечение. Если с помощью имеющегося программного обеспечения трудно прямо с клавиатуры ввести специальные символы, можно определить собственную кодировку символов на клавиатуре (например, представить буквы с ударениями путем ввода сразу же за буквой соответствующего знака ударения или воспользоваться специальными последовательностями символов, появление которых в обычном тексте маловероятно, в частности, вводить aE вместо ä). Для преобразования этих условных обозначений в нужные символы можно затем воспользоваться функциями глобального поиска и замены. При работе с оригиналами, в которых используется не-латинский алфавит, но существует стандартный способ транслитерации этого алфавита (например, для древнегреческого языка это бета-код Thesaurus Linguæ Græcæ), следует применить именно этот способ. Любая используемая транслитерация должна быть обратимой (это исключает удивительно много способов, широко используемых при обычном письме) и, кроме того, предпочтительно, чтобы для нее не требовались специальные лигатуры, связки или диакритические знаки (что исключает значительное число способов транслитерации, удовлетворяющих первому требованию).

Для обмена файлами между системами используются объектные ссылки SGML, чтобы заменить все символы, не попавшие в приведенный ниже список символов, почти никогда не искажаемых при обмене электронными данными:

a b c d e f g h i j k l m n o p q r s t u v w x y z
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9
" % & ' ( ) * + , - . / : ; < = > ? _   (пробел)
Из этого списка исключены следующие символы, которые, к досаде неподготовленных пользователей, часто неправильно передаются через национальные границы или при пересылке по стандартным глобальным сетям. Тем не менее, при переходе от компьютера Macintosh к PC эти символы, скорее всего, не исказятся:

! # $ [ \ ] ^ ` { } | ~

Чтобы гарантировать адекватную передачу по многопользовательским сетям, необходимо использовать объектные ссылки для всех букв с ударениями и символов расширенного латинского алфавита, всех не-латинских символов, а также для всех символов, которые не предусмотрены на стандартной клавиатуре компьютера.

При желании кодировщик может воспользоваться в TEI-совместимых файлах своими собственными объектными именами SGML, если для этих имен сделаны стандартные объявления объекта SGML, но стандартные имена (хотя и достаточно длинные) имеют то преимущество, что они очевидны; любой знакомый с английским языком пользователь поймет, какой символ кодируется данным объектом, часто даже не прибегая к справочным спискам. Этим качеством не обладают многие другие схемы представления символов с ударениями.

Объектные имена для символов, упомянутых выше как "не сохраняемые" и для символов с ударениями некоторых основных западноевропейских языков, приведены ниже. Списки наборов общедоступных объектов и их содержание имеются в любой работе по SGML, указанной в библиографии; приведенные ниже имена относятся к наборам общедоступных объектов ISO, они широко используются и поэтому рекомендуются здесь.

Если необходимый символ не входит в набор общедоступных объектов, можно сгенерировать имя, придерживаясь правил определения имен, используемых в наборе общедоступных объектов ISO, как это описано ниже:

digraphs (диграфы)
Для формирования объектных имен диграфов после букв, образующих диграф, добавляется последовательность символов lig. Если требуются заглавные буквы, следует ввести обе буквы диграфа в верхнем регистре (необходимо помнить, что регистр букв обычно важен в объектных именах). Примеры: aelig (æ), AElig (Æ), szlig (ß).

diacritics (диакритические знаки) и accents (ударения)
Для формирования объектных имен букв с надстрочными знаками, которые встречаются в большинстве западноевропейских языков, после буквы (в верхнем или нижнем регистре), над которой необходимо поставить надстрочный знак, вводится одна из следующих последовательностей символов:

umlaut
(умляут) для обозначения умляута (две точки над буквой) используются символы uml, например: auml (ä), Auml (Ä), euml (ë), iuml (ï), ouml (ö), Ouml (Ö), uuml (ü), Uuml (Ü).

acute (знак ударения)
для введения знака ударения (чтобы изобразить буквы некоторых алфавитов или ударную гласную) используется последовательность символов acute, например: aacute (á), eacute (é), Eacute (É), iacute (í), oacute (ó), uacute (ú).

grave (тупое ударение)
для введения знака тупого ударения используется последовательность символов grave, в частности: agrave (à), egrave (è), igrave (ì), ograve (ò), ugrave (ù).

circumflex
для введения диакритического знака "^" используется последовательность символов circ, например: acirc (â), ecirc (ê), Ecirc (Ê), icirc (î), ocirc (ô), ucirc (û).

tilde (тильда)
чтобы ввести буквы с тильдами, используется последовательность символов tilde, в частности: atilde (ã), Atilde (Ã), ntilde (ñ), Ntilde (Ñ), otilde (õ), Otilde (Õ).

согласные
Для некоторых специальных согласных, имеющихся в западноевропейских языках, рекомендуются следующие объектные имена: ccedil (ç), Ccedil (Ç), eth (eth нижнего регистра или англо-саксонское/исландское перечеркнутое d), ETH (eth верхнего регистра), thorn (торн (руническая буква, соответствующая th) нижнего регистра), THORN (торн верхнего регистра), szlig (немецкая лигатура "s-z" или esszett, ß).

знаки препинания
Для некоторых распространенных знаков препинания рекомендуются следующие объектные имена: ldquo (левая двойная кавычка, напоминающая число 66 в виде верхнего индекса), rdquo (правая двойная кавычка, напоминающая число 99 в виде верхнего индекса), mdash (длинное тире), hellip (горизонтальное многоточие, три близко расположенные точки), rsquo (одинарная правая кавычка, напоминающая число 9 в виде верхнего индекса). См. также приведенный ниже список "не сохраняемых" символов.

"не сохраняемые" символы
Символы, перечисленные выше как не сохраняемые при обмене информацией в современных международных специализированных и общедоступных сетях, можно представить следующими объектами: excl (!), num (#), dollar ($), lsqb (левая квадратная скобка), bsol (обратная косая черта \), rsqb (правая квадратная скобка), circ (знак "^"), lsquo (левая одинарная кавычка), grave (значок тупого ударения), lcub (левая фигурная скобка, {), rcub (правая фигурная скобка, }), verbar (вертикальная черта, |), tilde (тильда, ~).


Назад  Содержание  Вперед

Последние изменения: Суб Июл 4 20:14:14 MSD 1998
Сгенерировано TEItools