Иванов-Петров Александр (ivanov_petrov) wrote,
Иванов-Петров Александр
ivanov_petrov

Миры Щербакова 3

Анализ частоты слов в корпусе текстов М. Щербакова. Существительные

Прежде всего кратко опишем материал. Взяты тексты 280 песен, написанные между 1981-м и 2005-м годами. Базовая обработка исходного массива была проведена Сергеем Трифоновым с помощью программных средств компании «Яндекс», с последующей детальной доработкой. Собственных имен – приблизительно 440 слов. Из них топонимов – около 190 (43% от общего числа имен собственных), личных имен – около 160 (36% от общего числа имен собственных). Общий объем проанализированного массива – 60687 слов. Имеется база данных в Экселе, где дана частотка Щербакова, слова разбиты на классы – части речи. (Иногда встречаются ошибки в отнесении слова к части речи, но для наших целей такие ошибки не важны. На всякий случай: «коий» - не прилагательное).

Начнем с существительных. Итак, список существительных в корпусе Щербакова, выстроенный по частоте, сравнивали со списком существительных из частотки Ляшевской и Шарова (О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009) для всех текстов русского языка. В результате получаем маркированные слова – отсутствующие в одном из списков, более частые или более редкие в одном из них.

Группа существительных, которых нет у Щербакова, хотя они есть в сотне самых частых слов русского языка.

8 слов: история, решение, группа, развитие, условие, уровень, деятельность, организация.

Группа существительных, которых нет в тысяче самых частых слов языка, но они есть в корпусе Щербакова в первой сотне

11 слов: Боже, мгла, тьма, зверь, мрак, верблюд, Крым, туман, облако, юг, ад

Это две группы отсутствующих слов.

Часто встречающаяся ошибка рассуждений.

В этом месте довольно часто допускается ошибка. Аналитик полагает, что некоторые слова не являются релевантными и их следует исключить из анализа. Когда речь идет о стихах, легко говорится: есть непоэтические слова, их невозможно вставить в стихотворение, и потому то, что не встречается какое-то слово – не значимо, оно просто не может быть вставлено в стихотворение. Это ошибка, потому что аналитик не может судить, какое слово может, а какое не может входить в поэтическую речь. Иначе говоря, все решается поэтом – какое слово он решит поместить в свои тексты, такое и поместит, технические средства для этого имеются. И потому дело не в том, что какие-то слова относятся к научной лексике, или к канцеляриту, - то, что их нет в корпусе поэтических текстов, представляется значимым фактом.

Теперь будем составлять списки слов, которые в сравниваемых частотках занимают существенно разные места. Перечислим слова, место которых в частотке по корпусу Щербакова намного выше, чем в общей частотке русского языка. Объединяем с предшествующей группой отсутствующих в тысяче общей частотки (Боже объединяем с Богом, Крым оставляем в стороне):

Земля, Бог (Боже), свет, небо, век, край, душа, море, судьба, огонь, любовь, слеза, беда, берег, ветер, смерть, сон, сердце, река, счастье, дым, кровь, слава, ответ, срок, брат, волна, герой, музыка, мгла, тьма, снег, звезда, зверь, остров, зима, мрак, дама, лед, верблюд, мечта, туман, цветок, король, крыло, облако, песок, юг, ад, боль, вино

Получается «положительный» список слов, которые встречаются много чаще в корпусе Щербакова, чем в общей лексике, точнее – мы же сравниваем не абсолютные частоты, а места – это список слов, места которых в частотке Щербакова много выше, чем в общей частотке.

Для примера – фрагмент таблицы.




Такая таблица составлена для первой сотни слов частотки, это – фрагмент первых 20 слов. Строение таблицы: тут сопоставлены две частотки, частотка Щербакова (слева) и общая частотка (справа). Словам сопоставлены номера, которые они имеют в другом списке, так что легко видеть, какие слова поднялись или пустились в списке Щербакова по их частоте. Например, «слово» имеет номер 3 в частотке Щербакова, это третье по частоте встречаемости существительное. В общей частотке его номер – 10, это десятое по встречаемости слово. Такие изменения в первой десятке самых употребимых существительных представляются значимыми.

Штриховкой проведена разметка движений слов в списках. Штриховка слева направо обозначает слова, поднявшиеся в списке Щербакова, «горячие» слова. Слова «земля», «Бог», «свет», «небо» и т.п. поднялись в частотке Щербакова по сравнению с общим списком. Штриховка справа налево означает «холодные» слова, их место в частотке Щербакова ниже, чем в общей частотке.

Составим еще один список – для ориентировки: какие существительные встречаются намного реже, чем в общей лексике.

10 слов: человек, время, место, сила, лицо, сторона, страна, голос, вопрос, война

Штриховка справа налево обозначает «холодные» слова – слова, опустившиеся в списке Щербакова по сравнению с частотой их употребления в общей лексике. Например, «человек» и «время» употребляются Щербаковым реже, чем это следовало бы из их места в списке, в общем списке «человек» имеет второе место по частоте, а у Щербакова – 12-е место. Это заметное, существенное падение.

Слово «человек» остается очень часто используемым словом в стихах Щ., но мы его маркируем как «выпадающее» – по сравнению с общей частоткой это слово встречается намного реже. Так что приведенный выше список 10 слов – это не те слова, которых не найти у Щербакова, напротив, они входят в первую сотню наиболее употребительных его слов, но они используются им много реже, чем в среднем в языке.

Бывают несущественные смены места. Например, слова «рука» и «дело» занимают в обоих списках похожие позиции. Слово «год» оказывается самым частым в обоих списках, стоит на первом месте – и тем самым не считается «подозрительным», его первое место в частотке Щербакова, скорее всего, объясняется не особенной важностью для картины мира поэта, а просто тем, что это самое часто употребляемое существительное в русском языке.

Уже говорилось в разделе «Метод», что изменение места слова в списке зависит от его частоты. Если, например, десятитысячное по частоте слово становится 9500-м, это не важная замена. А если слово, занимающее в одном списке второе место, становится пятнадцатым – это крайне важная замена. То есть изменения частоты в начале списка, среди десятка самых частых и употребительных слов, весят больше, чем изменения в хвосте списка.

К этому списку добавим слова, занимающие место в первой сотне самых обычных слов языка, но у Щербакова встречающиеся очень редко, в хвосте распределения слов по частоте. Объединим со словами, вообще не встречающимися в корпусе Щербакова. Получим «отрицательный» список слов, которых нет или они употребляются намного реже, чем обычно в языке.

Работа, случай, система, часть, отношение, женщина, деньги, машина, отец, проблема, право, дверь, образ, власть, закон, голос, тысяча, книга, возможность, результат, стол, имя, область, статья, группа, число, компания, народ, жена, группа, развитие, процесс, суд, история, условие, средство, решение, уровень, форма, связь, минута, улица, качество, мысль, мать, действие, месяц, государство, мама, школа, общество, деятельность, организация, президент, комната, театр

Эти слова мы в корпусе Щербакова отыскивать не будем, значение этого списка в другом: если удастся вытроить картину мира Щербакова на основе положительного списка, станет понятнее, что означает отрицательный.
Tags: literature3
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 6 comments