Иванов-Петров Александр (ivanov_petrov) wrote,
Иванов-Петров Александр
ivanov_petrov

Перевод текста в схему

Интересна степень инвариантности. Вот дан текст. Предлагается нарисовать его содержание. То есть изобразить схематически его содержание. понятно, что это будет нечто вроде блок-схемы - какие-то понятия со стрелочками. Но насколько это инвариантно? Разные люди выделят из одного текста одну схему или разные? То есть - конечно, можно всегда извратиться и интерпретировать иначе, но если ставить задачу понять, а не особенно оригинально перетолковать - насколько инвариантно? Оказывается, такие опыты делали.

http://www.work.vegu.ru/vegu/vestnik/DocLib/57-62_%D0%91%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F.pdf
Статья И.В. Богословской о работах А.И. Новикова, еще 80-х годов.

Как формализовать понимание, переход от текста к его содержанию - этот вопрос не ставится. Это отдельная тема. А вот когда понимание есть, и читателю дано содержание текста - вполне можно формализовать переход от этого плана содержания к некоторому другому языку, например- языку, изображающему содержание.

В эксперименте предъявлялись текст и граф. Требовалось сказать, какие действия надо произвести с текстом, чтобы получить данный граф. Смотрели на операции, пошаговые преобразование испытуемыми текста. Там нашлись инварианты. Универсальными оказались, например, выделение номинативных групп, выделение имен денотатов, определение отношений между денонатами. Это в книге Новикова Семантика текста и ее формализация. Далее испытуемые выделяли денотатные пары (подл - сказуемое - дополнение). Потом они свертывали текст - к этим элементам.

Понятно, что - поскольку идет свертывание - разные тексты могут быть свернуты одним и тем же образом. То есть сама операция сведения текста к структуре содержания создает множества синонимичных текстов.

В диссертации в 2010 году http://www.eltech.ru/education/aspir/ISTcilikov.pdf делается машинная обработка. По сути там те же игры - ну, выделяются денотативные узлы, взвешиваются, отсеиваются те, что пореже, прочие иерархизуются. "По результатам эксперимента полученные результаты оказываются удовлетворительными для предварительного формирования структуры изначально неструктурированного естественно-языкового текста при условии последующей их правки вручную." Циликов.

Это к рефератам машинным, всяким "понимающим" вещам и в конечном счете к ИИ. Но мне кажется, увлеклись - как обычно - численными методами, а там затык. Между тем никто не запрещает не доводить формализацию до степени числовой спелости. Можно остановиться ранее. Получатся сильнейшие свертки содержания. Как мне кажется, необходимые вещи очевидны. Надо иметь не один текст, а много.

С одним текстом свертка не проходит, потому что не ясно, что же тут второстепенно, а что очень важно. Точнее, разное для разных целей и пр. А вот когда текстов 1000 или больше, их наложение - (операция "принимаем их как однотипные) - выделяет важное. Тем самым формализовать один текст нельзя, а тысячу - можно. Выделяя повторяющиеся элементы, понятным образом классифицируя части, приходим к сильнейшему сжатию не плана выражения, а именно плана содержания. (По секрету: особенно сильная свертка там будет происходить по той причине, что проходит через сведение к невербальному. Это не пересказ, по сравнительно полное отображение содержания невербальными средствами, и потому сжатие происходит очень сильное). Тысячи страниц текстов можно представить на одной страничке. - Отличная для сопоставительного анализа множества текстов. СМИ, или документов. Но самое приятное - для анализа разговоров и высказываний в сети. Это, в общем-то, единственный способ "взять" этот огромный материал.
Tags: sociology7
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 38 comments