Иванов-Петров Александр (ivanov_petrov) wrote,
Иванов-Петров Александр
ivanov_petrov

Category:

Про козлов - скучная история


"оттеснение содержания на периферию бизнеса традиционных СМИ носило и носит, увы, почти объективный характер. Собственник, капиталист – он естественным образом стремится повышать эффективность, это – его природа. Если в бизнесе, которым он владеет, есть не фабричный, штучный элемент – он так же естественно стремится заменить его на максимально индустриальный, машинизированный. Главное – он в этом не виноват, по большому счету. Ему никто не объяснил (и, тем более, не мог доказать на близком и успешном примере), что такая система теряет, наверное, главное обоснование своего существования – она перестает быть живым организмом, способным перестраиваться не по указанию маркетологов, а благодаря таланту и чувствительности творцов, ответственных за призрачный продукт СМИ, информацию и влияние. "

Василий Гатов. Горькие плоды просвещения
http://slon.ru/blogs/gatov/post/323849/

И вот то же самое в другом месте

Модель «Смысл - Текст»: Тридцать лет спустя
И. А. Большаков, А. Ф. Гельбух
http://www.gelbukh.com/CV/Publications/2000/Forum-MTM-rus.htm

Можно признать, что одна из первых по времени возникновения и наиболее продвинутая в России прикладная лингвистическая теория, автор и проповедник которой собирал на свои лекции в Москве в начале 70-х годов стни слушателей с самыми разными интересами, оказалась по существу невостребованной на Западе. В итоге даже вполне сочувствующий издатель вынужден назвать Мельчука в предисловии к его книге [1] «великим аутсайдером».

Но вернемся в Россию, где табель о рангах отдельных ученых можно приближенно составить при личном общении или опираясь на труды Международного семинара Диалог за 1995-99 годы. Применительно к личности Мельчука и его теории от прикладных лингвистов старшего поколения мы услышим воспоминания о ранней, романтической эпохе развития вычислительной лингвистики в России, хотя можем услышать и резкую оценку вроде «я уже двадцать лет говорю, что модель устарела». Младшему же поколению российских лингвистов имя Мельчука мало что говорит. Для них он просто русскоязычный иностранец, которого раз в три года можно лицезреть в виде лектора в одном из ведущих институтов Москвы.

Настоящая статья написана в порядке дискуссии и призвана ответить на вопрос, поставленный в заголовке: так устарела ли модель СТ? Забегая вперед, попробуем сформулировать наш ответ примерно так.

Нет, эта лингвистическая теория идеологически не устарела, она продолжает развиваться как в прикладном (см., например, книги [2, 3]), так и особенно в теоретическом плане [1, 4, 5], хотя чисто прикладных публикаций по ней на английском языке за весь период развития было маловато. Но в рамках современного сообщества западных вычислительных лингвистов ничто, видимо, не спасет ее от вечного аутсайдерства. Отдельные ее черты уже воспроизведены независимо западной прикладной лингвистикой, иные же черты будут, скорее всего, переоткрываться в рамках других моделей. При всем этом никто может и не понять, что речь идет о переоткрытии, поскольку будут изобретены новые термины, формализмы и алгоритмы.

Причины игнорирования модели

Попробуем теперь понять, почему же модель «Смысл - Текст» не нашла заметной поддержки на Западе, несмотря на то, что автор модели живет в Канаде уже более 20 лет и уделил немало внимания популяризации своих идей. На наш взгляд, причины здесь кроются в следующем.

Преждевременность. Исторически модель СТ была предложена и проработана в деталях учеными с огромной эрудицией, в стране с глубокими традициями гуманитарных исследований, но задолго до реальной возможности ее программной реализации.

С самого начала создателям модели СТ была ясна невероятная объективная сложность задачи. Ими были детально проработано в теории множество вариантов, исключений, редких и трудных случаев. Была предложена сложная структура словарей, призванных содержать гигантский объем лексической информации. В результате первые же попытки практической реализации модели просто захлебнулись в сложности и объемах работы, особенно при отсутствии государственной поддержки в Советском Союзе.

Напротив, на Западе первые простейшие грамматики из десяти строк были восторженно подхвачены целой армией специалистов — и неспециалистов, — имеющих доступ к реальным компьютерам, корпусам текстов, а с ними — и к реальным заказчикам и коммерческим проектам. Для реализации этих проектов годились даже эти простейшие грамматики. Возможность легкого успеха, а с ней приток интереса и капитала вызвал бурное и, главное, последовательное развитие теории, создание массовой научной школы.

К сегодняшнему же пониманию того, что настоящий научный успех не легок и не скор, западная традиция пришла, пусть на 30 лет позже, но с багажом по крохам накопленных формализмов и их программных реализаций, опыта как разработки теории, так и ее преподавания, а главное, с армией обученных профессионалов и «кредитом доверия» у научных и финансирующих организаций.

Англоязычный изоляционизм. Еще в начале ХХ века было предложено описывать английский язык с помощью непосредственных составляющих. Деление предложений на составляющие казалось непосредственно наблюдаемым в тексте, т.е. единственно «объективным», и каждое новое наблюдение, производимое на английском материале, только подтверждало применимость такого деления. В результате метод составляющих стал в глазах англоязычных исследователей чем-то абсолютно универсальным, даже единственно возможным.

Научная Европа не спешила примкнуть к этому методу. Именно в 30-х годах Л. Теньер ввел в научный оборот деревья зависимостей, которые задолго до этого были известны на неформальном уровне в практике описания различных языков, в частности, русского.

Когда же в Америке появились генеративные грамматики Н. Хомского, среди которых контекстно-свободные грамматики внешне столь хорошо соответствовали методу составляющих, это решение показалось единственно возможным и с формальной стороны. Иначе говоря, описание естественных языков с помощью генеративных грамматик на этом этапе казалось вполне адекватным.

Дальнейшее развитие генеративной традиции велось в распространении методов, уходящих корнями в английский синтаксис, на другие языки и на сложные случаи самого английского. Отдельные успехи на этом пути создавали иллюзию того, что метод этот универсален. Действительно, ведь описывает же он теперь падежи в исландском и клитики во французском, чего же больше? На деле до самого последнего времени это было скорее приспособление одной структуры для описания другой [10]. Впрочем, справедливости ради надо сказать, что модель СТ уходит корнями в русский язык, а свойственный этому языку морфологический способ кодирования синтаксических отношений для западных языков не столь характерен и потому не особо интересен.

Финансовая мощь Соединенных Штатов. Грамматики Хомского появились в 50-х годах, а конец 50-х — начало 60-х характеризуется в США беспрецедентной поддержкой фундаментальных наук государством. Проиграв России первый раунд гонки за спутник, Америка сочла за благо поддерживать точные науки, сразу все и везде, тем более что денег хватало. Среди прочего в выгодном положении оказались и формальные грамматики. Количество научных (как правило, чисто математических) работ в этой области быстро росло, математическая лингвистика сформировалась как отдельная наука и стала преподаваться в крупных университетах страны.

Дальше наступило отрезвление в части универсальной приложимости контекстно-свободных грамматик к естественным языкам и одновременно — их триумф в приложении к языкам программирования. Появились иные лингвистические модели, но на базе уже изученных. В процесс познания втянулись молодые математики и программисты. Сформировались коллективы, научное направление которых стало называться вычислительной лингвистикой. И финансовая мощь США явилась основой быстрого развития таких коллективов.

Когда же Европа стала достаточно богатой, чтобы шире поддерживать движение, методы уже сложились. При этом более модными оказались те из них, которым изначально сопутствовала большая материальная поддержка.

Инерция высшей школы. Представим себе циклический процесс подготовки докторов в высшей школе на Западе. Доктор в области вычислительной лингвистики готовит себе смену, год за годом, порождая новых докторов по той же специальности. Выпускники, которые идут затем в фирмы, разрабатывающие лингвистические программы, знают только ту теорию, которая им преподавалась. И даже если она не очень годится для совершенствования их программ, искать какую-либо иную просто нет времени, нужно программировать. Те же, кто остался в высшей школе, передают свои знания очередному поколению докторов в рамках уже сложившейся традиции. Нужно быть достаточно смелым и хорошо подготовленным в области общей лингвистики, чтобы внести в уже сложившуюся традицию какой-либо существенно новый элемент. Инерция развитой высшей школы сопротивляется нововведениям, особенно, когда они обещают что-то лучшее не для родного (и такого естественного) языка, а для экзотических вроде исландского или русского, и притом в неопределенном будущем.

Незыблемая вера в возможности машин, а не человека. На наших глазах вычислительные машины увеличили свою производительность и объемы памяти на несколько порядков. Для хорошо знакомых с программированием, но весьма посредственно — с лингвистикой это выглядит прямым доказательством того, что на каком-то уровне своего развития машины смогут решать задачу «сами», грубой электронной силой, путем громадных переборов различных вариантов. Разве не подтвердила эту тенденцию новейшая шахматная программа, когда выиграла одну из партий у Каспарова?

Но если это верно, зачем тогда пытаться понять тонкие механизмы языка самому или вручную переводить на «человеческий» (то есть программистский) язык то, что преподносят лингвисты-теоретики вообще и их аутсайдерские теории в частности? А здесь уж недалеко от приговора проигравшим: «Раз данный подход не стал популярным, значит он не достиг нужного уровня зрелости, а потому его не стоит ни знать ни тем более преподавать». (Авторы получили такую формулировку в одной из рецензий.) Де, пусть поверженные сами доказывают свою необходимость для мира.

Требование немедленного успеха. Любые новые теории в вычислительной лингвистике начинаются ныне с формализмов, затем следуют новые алгоритмы или способы погружения нового формализма в старые алгоритмы (скажем, унификационные). На этом докторские диссертации обычно и заканчиваются. Затем возможно некоторое отрезвление у тех, кто пытается новую теорию применить. В ее рамках нужно описать не менее нескольких тысяч (лучше — десятков тысяч) лексем, т.е. создать вручную или полуавтоматически (чисто автоматически пока не удается никому) какой-то новый тип словаря. Для этого нужна технология, причем такая, чтобы могла использоваться теми, кому за эту работу докторской степени не обещают.

Если теория очень хорошо объясняет что-то новое и сулит существенные практические преимущества, а ее автор и/или руководитель проекта достаточно энергичен, чтобы достать деньги на создание крупного «лексического ресурса», новый словарь может появиться. Но против крупных проектов действует установка западных чиновников финансировать только краткосрочные проекты, максимум на 2 — 3 года, а за этот срок невозможно создать крупный словарь, будь то печатный или машинный. (Чиновников тоже можно понять: стоимость ученого на Западе слишком велика, как и степень подотчетности самих чиновников в расходовании госсредств.) Так что в лучшем случае словарь будет создаваться и расти по частям. И, естественно, это будет словарь собственный по идеологии и технологии создания, а не построенный по чей-то чужой теории, за которую академические лавры получить трудно, а тем более по такой, для которого и технология-то по существу отсутствует.

Престиж и амбиции. Это еще один, чисто человеческий фактор. Приятно и выгодно (а подчас и необходимо для получения должности в университете и финансирования проектов) быть автором новой модной теории. В то же время нужно быть в нашем меркантильном мире немного альтруистом, чтобы сознательно поддерживать чужую теорию и каждодневным трудом способствовать ее продвижению в научный оборот. Проще придумать свои название, терминологию, формализм, не слишком отходя от «главного течения», дабы оставаться понятым теми, кто подобные аппараты понапридумывал раньше.

Представляется, что любого из перечисленных факторов хватило бы для происшедшего отвержения и игнорирования модели СТ. В истории развития современной науки бывает, что побеждает не лучшая в каком-то смысле научная парадигма, а та, за которой более или менее случайно оказываются стоящими большие материальные средства, большая энергия и возможности их создателей и пр., т. е. обстоятельства, прямо к науке не относящиеся.


...Последнее десятилетие характеризуется проектами по разработке крупных машинных словарей, ибо самые общие грамматические формализмы еще не решают практических проблем обработки естественного языка. Появились теории синтеза текстов, отдельные от теорий анализа.

Явные практические успехи западной традиции утвердили многих ученых в мысли, что революционные пересмотры основной линии ее развития не нужны, и если в аудсайдерских теориях есть нечто заслуживающее внимания, то в нужное время это неизбежно вольется в основной поток как-то само собой.

Поскольку на развитие модели СТ за прошедшие три десятилетия в мире было затрачено неизмеримо меньше усилий, многие стороны этой модели остались слабо развитыми и порой звучат как благие пожелания. В плане же приложений не удалось развить удобных формализмов, например, для синтаксического анализа. Осталась также не созданной доступная непосвященным технология создания крупных толково-комбинаторных словарей.


...Вероятно, придется смириться с тем, что модель СТ для Запада всегда останется маргинальной и что основная масса прикладных лингвистов понятия модели не освоит никогда (разве что переоткрыв их в рамках своей традиции).


Пункты: Финансовая мощь Соединенных Штатов и Англоязычный изоляционизм.
Очень напоминает ресурсное проклятие. Это на сленге экономистов. На эволюционитском языке - гигантизм и кризис сверхспециализации. Если попросту - прохлопают любые возможности, забираясь вверх по пути экстенсивного развития, а там-то окорот быстро наступает.

Пункты: Незыблемая вера в возможности машин, а не человека и Требование немедленного успеха - это современный взгляд на мир. Завязано друг на друга. Входит в мировоззрение, которое начало проявляться в 16-17 вв. и сформировало науку.

И ведь почти в любой области, куда ни загляни - одно и то же.
Tags: books6, science4, sociology7
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 28 comments