Previous Entry Add to Memories Share this! Track This Flag Next Entry
"Определитель славянских литературных языков"
rousseau
[info]rousseau
Вдохновленный найденным [info]orie автоматическим определителем языков я решил запостить в ЖЖ свой «Определитель славянских литературных языков».
Он сделан по образцу биологических определителей. Написан он исключительно из любви к искусству и для прикола, так как люди, интересующиеся славянскими языками, довольно быстро могут научиться опознавать язык сразу, без утомительной процедуры, а прочим же такой определитель вообще не нужен.
Тем не менее, желающие могут ознакомиться. Критика, предложения, указания на ошибки – приветствуются!

Определитель построен по введенному Ламарком дихотомическому принципу. Каждый шаг в определении состоит из двух утверждений: тезиса и противоположного ему антитезиса. Тезисы пронумерованы, антитезисы обозначаются нулем. При определении следует внимательно прочитать как тезис, так и антитезис, выбрать из этих утверждений подходящее, а далее перейти к шагу, номер которого указан. Так надо действовать до тех пор, пока после очередного тезиса (или антитезиса) не будет указано название языка.
Для примера приведем фрагмет определителя для гипотетических животных:

1. Ног шесть > 2
0. Ног семь > 3
2. Крылья красные > Краснокрылый шестиног
0. Крылья синие > Синекрылый шестиног
3. Брюхо узкое > Узкобрюхий семиног
0. Брюхо широкое > Широкобрюхий семиног

Определитель славянских языков должен различать следующие литературные языки: белорусский (две орфографические нормы), болгарский, верхнелужицкий, кашубский, македонский, нижнелужицкий, польский, русский (две орфографические нормы), сербский, словацкий, словенский, украинский, хорватский, чешский. Сербский язык определяется как использующий кириллическую письменность, хорватский – как использующий латинскую, хотя это и несколько упрощенная картина. Определитель не в состоянии отличить боснийский (босанский) от хорватского. При помощи данного определителя, к сожалению, нельзя опознать русинский язык и другие языки, не вошедшие в вышеуказанный список.
При определении желательно иметь текст достаточно большого объема.

1. Письменность на основе кириллического алфавита > 2
0. Письменность на основе латинского алфавита > 9

2. Есть буква i > 3
0. Нет буквы i > 6

3. Есть буква ы > 4
0. Нет буквы ы, а также букв ё, ъ. Есть буквы є, ϊ. Изредка встречается буква Ґ ґ. Сравнительно часто используется апостроф > украинский язык

4. Есть буква ў, букв и, ъ, ѣ (ять) в алфавите нет. Очень часто встречаются сочетания: дж и дз: дзед, адзiн. На письме отражается аканье: галава, палавiна > 5
0. Есть буквы и, ъ, ѣ (ять), изредка – буква v (ижица),буквы ў в алфавите нет. На конце слова после согласных ставится ъ (твердый знак) > русский язык (орфографическая норма до реформы 1918 года)

5. Мягкость звуков з, с, ц, дз в положении их перед мягким согласным обозначается ь: сьнег > белорусский язык (орфографическая норма до реформы 1933 года, тарашкевица)
0. Мягкость з, с, ц, дз в положении их перед мягким согласным на письме не обозначается: снег > белорусский язык (орфографическая норма после реформы 1933 года, наркомовка)

6. Есть буквы Љ љ, Њ њ, Џ џ, S s, J j > 7
0. Нет букв Љ љ, Њ њ, Џ џ, S s, J j > 8

7. Есть буквы Ћ ћ, Ђ ђ. Нет букв ё, й, щ, ъ, ы, ь, э, ю, я > сербский язык
0. Есть буквы Ќ ќ, Ѓ ѓ, нет букв Ћ ћ, Ђ ђ, ё, й, щ, ъ, ы, ь, э, ю, я. После существительных встречается артикль: -от, -то, -та, -те. Очень часто встречается окончание -аа > македонский язык

8. Часто употребляется буква ъ, служащая для обозначения гласного звука. После существительных встречается артикль: -ът, -ят, -та, -то, -те. Нет букв ё, ы, э > болгарский язык
0. Буква ъ используется редко, есть буквы ы, э, факультативно – ё > русский язык

9. Есть буквы Ł ł, Ń ń > 10
0. Букв Ł ł, Ń ń в алфавите нет > 13

10. Есть буква Ż ż > 11
0. Буквы Ż ż в алфавите нет > 12

11. Есть буквы Ć ć, Ś ś, Ź ź, ę, также ą, ó. Отстутствуют буквы ã, é, ë, ô. Нет также букв q, v, x > польский язык
0. Есть буквы ã, é, ë, ô, а также ą, ó. Отстутствуют буквы Ć ć, Ś ś, Ź ź, ę. Нет также букв q, v, x > кашубский язык

12. Есть буквы Ŕ ŕ, Ś ś, Ź ź. Нет буквы Ř ř, буква ó используется только в ряде изданий. В алфавите также имеются ć, č, ě, ł, ń, š, ž > нижнелужицкий язык
0. Нет букв Ŕ ŕ, Ś ś. Буква ź используется только в составе диграфа . Есть буквы Ř ř, Ó ó, а также имеются ć, č, ě, ł, ń, š, ž > верхнелужицкий язык

13. Есть буквы Ď ď, Ň ň, Ť ť, Á á, É é, Í í, Ú ú > 14
0. Нет букв Ď ď, Ň ň, Ť ť, Á á, É é, Í í, Ú ú > 15

14. Есть буква Ů ů, есть также буквы Č č, Š š, Ž ž, Ř ř. Нет букв Ľ ľ, Ý ý, Ä ä, Ô ô, а также нет q, w, z. Характерны сочетания согласных типа drž, hrdl, krv, prst, prv, strč > чешский язык
0. Есть буквы Ľ ľ, Ý ý, Ä ä, Ô ô, есть также буквы Č č, Š š, Ž ž, Ř ř. Нет буквы Ů ů, а также нет q, w, x > словацкий язык

15. Есть буква Đ đ. Также есть буквы č, š, ž. Часты сочетания dž, ji, lj, nj. Нет букв q, w, x, y. > хорватский язык
0. Нет буквы Đ đ. Есть буквы č, š, ž. Отсутствуют буквы q, w, x, y. Отличительным признаком может служить сочинительный союз in, которого нет в других славянских языках > словенский язык

Ух ты, как здорово!
Предлагаю краткий вариант:
"пепси-кола" произносится как "пшепши-коуа" - польский. ;)

Это для фонетического определителя ;-)

В чешском буква Z вполне себе присутствует:
záď - корма,
záda - спина
ze - от, из
zob - зерно, корм для птиц
Не говоря уже о zoo и прочих заимстствованиях

спасибо! я исправлю (немного позже, когда соберется побольше замечаний)
а q и w в чешском есть?

Только в заимствованных словах - квази, ватт, винчестер, виндсерфинг, wisterie (глициния) и аналогичных.

Нет также букв q, v, x > польский язык

Ну... вообще-то иногда пишут "Qrczę" :-))

что такое Qrczę?

но уточнение про q, v, x я в любом случае внесу

Это модификация восклицания Кurczę! - примерно то же, что наш "блин" (а буквально "цыпленок"). Через Q пишут, видимо, для красоты :-)

Это единичный некодифицированный пример из разговорной речи. Вносить уточнения про q v x, опираясь только на него, не следует. За исключением единичных случаев передачи заимствованных слов, которые в этом случае, как правило, передаются без изменений (например, vis-a-vis, va banque, votum, video). При этом даже у этих слов будут существовать альтернативные "собственно польские" варианты: wideo, wotum, va bank.

В литературном польском языке для передачи собственно польских слов q v x не существует.

Я как раз про неосвоенные заимствованные слова внесу уточнение

va bank czy wa bank?

Morda w kubeł!
Za bardzo się pan wykoślawiasz z taką polszczyzną.

Nie jestem panem :-)

A za słówko przepraszam - naprawdę bardzo przepraszam - ale dla filologów (mam na myśli Pana tego blogu) każde porzekadło się przyda.

Жалко, русинского нет. Такой же малый язык, как и кашубский

Он даже по-моему более благополучен, чем кашубский, но там с единой орфографической нормой проблема

извините, вы какой русинский имеете в виду? тот, что в Польше, в Венгрии, в Украине или в СЛовакии? просто я занимаюсь тем, что в Словакии...

Я не знаю, насколько тот, что в Словакии, отличается от того, что на Украине.

отличается
ну а вы какой имели в виду? откуда знаете? сами являетесь носителем?

Украинский вариант. Изучал в своё время в университете в рамках курса малых языков.

Браво! Снимаю шляпу!

Готовый алгоритм. Кто бы написал программу....

Лучше бы скрипт.

Силен ты, Макс, однако.
Молодец...

Интересно, буду вчитываться.
Но в белорусском есть ещё и латинка...

И белорусские китабы!

неправда, что никому не нужен, мне часто бывает нужен.
вообще, супер, ты гигант ;-)

Веток надо бы в несколько раз больше. Ведь и такие книги бывают, где сербский арабскими буквами или церковнославянский латиницей по венгерской системе...

Эх... чего только нет. Я, конечно, поленился в довольно большой степени.
Ниже анонимный читатель в комментарии привел вариант определителя, который куда полнее охватывает кириллические варианты

Вот в первом приближении ветка кириллицы. Старопечатные варианты учтены далеко не все.

   1. Содержит букву "i"?
      Да=2, нет=3.

   2. Содержит букву "и"?
      Да=4, нет=5.

   3. Содержит букву "ы"?
      Да=6, нет=7.

   4. Содержит букву "ы"?
      Да=8, нет=9.

   5. Между свистящей и мягкой согласной вставляется "ь"?
      Да=10, нет=11.

   6. Встречаются написания "во-время, во-всю, итти, однакож, панцырь, придти, чорт"?
      Да=12, нет=13.

   7. Содержит букву "ять"?
      Да=14, нет=15.

   8. Много разных надстрочных знаков?
      Да=16, нет=17.

   9. Содержит букву "j"?
      Да=18, нет=19.

  10. Белорусский язык, "тарашкевица".

  11. Белорусский язык, "наркомовка".

  12. Русский язык образца 1918-1955 гг.

  13. Русский язык после 1956 года.

  14. Содержит букву "юс большой йотированный"?
      Да=20, нет=21.

  15. Содержит букву "j"?
      Да=22, нет=23.

  16. Много слов с неотмеченными ударениями?
      Да=24, нет=25.

  17. Содержит букву "юс большой"?
      Да=26, нет=27.

  18. Украинский язык, "драгомановка".

  19. Содержит букву "i" с двумя точками?
      Да=28, нет=29.

  20. Болгарский язык начала XX века.

  21. Болгарский язык до 1945 года.

  22. Сербский язык с середины XIX века.

  23. Болгарский язык после 1945 года.

  24. Содержит букву "йотированное Е"?
      Да=30, нет=31.

  25. Содержит знаки переноса?
      Да=32, нет=33.

  26. Болгарский язык, середина XIX века.

  27. Содержит букву "дервь" (перечеркнутое "h")?
      Да=34, нет=35.

  28. После согласных попадается "i" с двумя точками ?
      Да=36, нет=37.

  29. Содержит букву "ять"?
      Да=38, нет=39.

  30. Церковнославянский язык сербского извода.

  31. Церковнославянский язык Ивана Федорова.

  32. Содержит букву "г" с клювом вверх ?
      Да=40, нет=41.

  33. Церковнославянский язык (старообрядческий).

  34. Сербский язык начала XIX века.

  35. Есть и глаголы на -ати, -лися, и прилагательные на -ои?
      Да=42, нет=43.

  36. Украинский язык, "желеховка".

  37. Встречается буква "г" с клювом вверх?
      Да=44, нет=45.

  38. Украинский язык образца "Русалки днестровой".

  39. Украинский язык, "кулишовка".

  40. Церковнославянский язык, старые украинские издания.

  41. Инфинитив на -ть?
      Да=46, нет=47.

  42. Над гласными часто встречается крышечка?
      Да=48, нет=49.

  43. Возвратная частица только в форме -ся?
      Да=50, нет=51.

  44. Украинский язык нынешний или эмигрантский.

  45. Украинский язык 1933-1990 гг.

  46. Русский язык, напечатанный по ц.-сл. орфографии.

  47. Церковнославянский язык (стандартный).

  48. Украинский язык, "максимовичевка".

  49. Почти в каждом абзаце встречается буква "ять"?
      Да=52, нет=53.

  50. Церковнославянский язык русской дореформенной азбукой.

  51. Русский язык до 1917 года.

  52. Язычие.

  53. Украинский язык, "ерыжка".

Упс, македонский забыл. Меняем пункт 22 и парочку добавляем:

22. Содержит буквы Г' и К'?
    Да=54, нет=55.

54. Македонский язык.

55. Сербский язык с середины XIX века.

Замечательно!!!!!!

Гхм -).
Кстати о птичках - у сербов в настоящее время вполне активно используется латиница. В частности мне подруга из Сербии присылала диски в коробках из под фильмов изданных в Сербии - и все подписаны латиницей.
И второе - не сочти меня сербохорватоконсерватором - но боснийский - все таки диалект хорватского. (Хотя тот же македонский - в Болгарии считают диалектом болгарского).

Вот латиницу у сербов я и имел в виду, когда писал: "Сербский язык определяется как использующий кириллическую письменность, хорватский – как использующий латинскую, хотя это и несколько упрощенная картина"

О болгарских орфографиях (хотя и это не все)

[info]iad

2007-04-13 03:25 am (local) Track This

if есть ы, і then середина XIX в.
elif есть ѭ then
    if есть ё, ıe, ıa, ъı then конец XIX в. else начало XX в. fi
elif есть ѣ then
    if его много then —1921 г. else 1923–1945 гг. fi
    {шибболетом может служить, например, написание двѣ vs. две}
elif есть ѫ, а нет ъ, ь then 1921–1923 гг. (т.наз. орфография [министра] Омарчевского)
elif все слова оканчиваются на ъ или ь (если не на гласный или й)
    then личная орфография поэта Пенчо Славейкова (1866–1912)
else 1945 г.—
fi

Re: О болгарских орфографиях (хотя и это не все)

(Anonymous)

2007-04-17 12:56 pm (local) Track This

Там запутаннее: Иречекова "Исторiя на българитЪ" без йотированного юса (и без ё, ıe, ıa, ъı) уже в 1886 (Тьрново), а "Новий завЪтъ на Господа нашего Иисуса Христа" с оным аж в 1910 (Цариградъ).

Re: О болгарских орфографиях (хотя и это не все)

[info]kcmamu

2007-04-17 12:59 pm (local) Track This

C'était moi.

Re: О болгарских орфографиях (хотя и это не все)

[info]iad

2007-04-17 01:40 pm (local) Track This

Да. Дело не только во времени, но и в месте. Пловдивская школа настаивала на различении всего, что различалось в древнеболгарском (соответствено на более или менее аналогичном составе алфавита). Тырновская была, видимо, скромнее.

Если я правильно помню, в каком-то варианте русинского правописания были все три И, I, Ы, так что русинский можно и добавить.

С чешским и словацким у вас вышла путаница. Для простоты будем считать, что основа обоих алфавитов – общая, т.е., набор литер и (что особенно важно) правила их применения – практически идентичны. Остаётся лишь указать те буквы, которые используются только в одном из этих двух языков и отсутствуют в другом.
Чешский: (Ě)ě, Řř, (Ů)ů (которая, вообще, ни в каком другом алфавите не представлена).
Словацкий: (Ä)ä, (Ĺ)ĺ, Ľľ, (Ŕ)ŕ, (Ô)ô.

Скобки означают, что данный символ не может стоять в начале слова.

Оба языка применяют литеры: Čč, Šš, Žž, Ňň, Ďď, Ťť, а также гласные со знаком долготы: á, é, í, ó, ú, ý - правда, в чешском ó встречается редко - лишь в заимствованиях (fórum), а литера ú практически всегда стоит только в начале слова (в словацком этих ограничений нет).

Оба алфавита содержат литеры q, w, x, но применяют их лишь в иноязычных словах (гл. обр., именах собственных); однако, буква х встречается также и в уже усвоенных заимствованиях: text, paradox, existovat (!)


Userpic
[info]tobotras
Home   Post   Friends Page