Иванов-Петров Александр (ivanov_petrov) wrote,
Иванов-Петров Александр
ivanov_petrov

Category:

Глоттохронология Сводеша и кладистика: кладисты добрались до языков. Скучно не будет

http://elementy.ru/news/430614


"Авторы стремятся выяснить общие закономерности эволюции языков, ее скорость, а также древность расхождения (и, следовательно, степень родства) различных языков.

Метод, который используют авторы, фактически является разновидностью глоттохронологии (лексикостатистики), созданной американским лингвистом Моррисом Сводешем в середине XX века.
Сводеш выделил базовый словарь: список из 100 (впоследствии из 200) универсальных понятий, которые важны для всех культур и потому предположительно встречаются во всех языках мира. Лексика (словарный состав) языка всё время меняется, одни слова заменяются другими, но слова, обозначающие понятия из списка Сводеша, обладают особенной устойчивостью. Тем не менее постепенно заменяются они. Сравнивая списки Сводеша для родственных языков и подсчитывая, какое количество понятий обозначается разными словами, можно определить степень родства языков (чем больше совпадений, тем ближе языки). Так, очевидно, что для русского и польского совпадений будет гораздо больше, чем для русского и английского, но меньше, чем для русского и украинского. Если же определить еще и скорость замены слов из базового списка, то можно с высокой точностью датировать расхождение языков.
На практике глоттохронология сталкивается с рядом серьезных технических и методологических проблем. Например, не всегда очевидно, являются ли два слова родственных языков потомками одного слова, то есть считать ли, что понятие обозначается одинаково или нет. Искажают картину, в частности, слова, заимствованные одним языком у другого, вовсе необязательно родственного (получается, что понятие обозначается одним и тем же словом, но причина на самом деле лежит не в родстве языков, а в их тесном контакте). Не всегда понятно, что делать, если понятие может обозначаться несколькими синонимами. Тем не менее глоттохронология активно применяется в современной лингвистике. Значительно развил и дополнил идеи Сводеша российский лингвист Сергей Анатольевич Старостин, основавший, в частности, на базе Института Санта-Фе проект «Вавилонская башня», посвященный фундаментальным исследованиям родства языков. Старостин и его последователи проанализировали множество мировых языков и во многих случаях пришли к интересным выводам, некоторые из которых, правда, вызывают у части лингвистов серьезные сомнения.

Авторы проанализировали обозначения понятий из 200-словного списка Сводеша для 87 индоевропейских языков. Список понятий (значений) охватывает разные части речи («всё», «и», «животное», «плохо», «потому что», «лежать», «он», «черный», «резать», «огонь», «два» и т. д.; полный список см. в дополнительных материалах к статье, PDF, 1,2 Мб). Данные по языкам исследователи брали из описанной в работе I. Dyen, J. B. Kruskal, P. Black (1992). An Indo-European classification, a lexicostatistical experiment лексической базы, на нее же, видимо, опирались во всех сложных с точки зрения этимологии (происхождения слов) случаях.

Слова из разных языков, обозначающие одно и то же понятие и являющиеся потомками одного и того же слова, объединялись в «родственные группы». Например, слово, выражающее значение «два» во всех индоевропейских языках относится к одной и той же родственной группе (англ. two, нем. zwei, исп. dos, фр. deux, русск. два и т. д.), тогда как, например, значение «хвост» представлено в исследованных 87 языках 28 группами (греч. ουρά, нем. Schwanz, фр. queue, англ. tail — примеры слов, относящихся к разным группам). Общее число родственных групп для 200 значений в 87 языках оказалось равным 4049.

Для каждого из 200 понятий была определена частота встречаемости. С этой целью авторы проанализировали большой массив данных по устной и письменной речи для четырех языков: английского, испанского, русского и греческого (от 20 до 100 млн слов для каждого языка). Эти языки представляют далекие друг от друга ветви индоевропейской семьи. Выяснилось, что частота употребления различных понятий в четырех языках весьма сходна, иначе говоря, понятия, часто употребляемые в одном из языков, скорее всего и в других языках употребляются часто, и наоборот.

Следующим шагом было построение эволюционного древа 87 индоевропейских языков. Основой для построения древа послужила таблица из 87*4049 нулей и единиц, отражающая наличие или отсутствие каждой из 4049 словесных групп в каждом из 87 языков. При этом были использованы сложные математические методики построения эволюционных деревьев, разработанные биологами-эволюционистами.


Для «калибровки» древа (определения абсолютной длины ветвей в годах) была использована усредненная оценка времени начала дивергенции (расхождения) индоевропейских языков — 8700 лет назад (имеющиеся оценки варьируют от 6 до 10 тысяч лет, изменение даты расхождения повлияет на абсолютные длины ветвей древа, но не на их соотношение). На основе построенного древа были вычислены средние скорости замены слов (родственных групп) для каждого из двухсот понятий. Эту скорость можно выразить как «период полураспада» (half-life), то есть как время, в течение которого данное понятие с вероятностью 50% станет обозначаться другим словом (точнее, словом, относящимся к другой родственной группе). Оказалось, что для 200 исследованных понятий это время варьирует от 750 до 10 000 лет.

Легко заметить, что получившееся древо отличается от общепринятого (см. в начале статьи). Любопытно, что в новом древе украинский и белорусский ближе к польскому, чем к русскому (русский ответвляется от польско-украино-белорусской группы, которая затем разделяется на три языка), в то время как по традиционным представлениям сначала расходятся западнославянская (включающая польский) и восточнославянская (русский, белорусский, украинский) группы. Причин несовпадений может быть много, результаты построения деревьев во многом зависят от того, как исследователи решают возникающие проблемы (см. выше некоторые примеры). Авторы статьи не описывают подробно лингвистическую часть своей методики, поэтому мы затрудняемся точнее проанализировать причины различия деревьев.


Затем авторы построили графики зависимости скорости словоизменения от частоты словоупотребления в английском, русском, испанском и греческом языках (см. рис). Оказалось, что для каждой части речи в отдельности и для всех понятий в целом между этими двумя показателями наблюдается хорошо выраженная обратная зависимость. Чем чаще употребляется слово, тем медленнее оно изменяется.

По мнению авторов, эта зависимость может объясняться двумя причинами:
1) Люди реже ошибаются при произнесении, запоминании и восприятии на слух часто употребляемых слов. Это предположение подтверждается эмпирическими данными.
2) Люди (популяция носителей языка) реже соглашаются принять новшество, если речь идет о часто употребляемом слове.

...Авторы отмечают, что найденная закономерность позволяет сделать любопытные прогнозы. Во-первых, можно ожидать, что при расхождении двух языков, имеющих общего «предка», различия будут накапливаться сначала в менее важных словах, и поэтому два языка будут оставаться взаимно понятными намного дольше, чем следовало бы ожидать, исходя из предположения о случайном распределении возникающих изменений по всему лексикону. Во-вторых, исследование показало, что часто употребляемые слова могут сохраняться в узнаваемом виде 10 000 лет и более; это значит, что в культурной эволюции возможны «репликаторы» (мемы), почти сопоставимые по надежности своей репликации (передачи, воспроизведения) с некоторыми генами."

Дальше там таблица http://www.nature.com/nature/journal/v449/n7163/extref/nature06176-s1.pdf аналогий между лингвистической и биологической эволюцией
Tags: language2
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 90 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →