Иванов-Петров Александр (ivanov_petrov) wrote,
Иванов-Петров Александр
ivanov_petrov

Categories:

Тест текста

http://kouprianov.livejournal.com/104983.html
http://www.polit.ru/science/2009/04/01/erunda.html

Сделали еще одну статью компьютерными методами и запустили в еще один журнал (Вестник Томского ГУ). Прошла, опубликована.
Однако невинность наших рецензентов меня в данном случае не волнует. Ну, пропустили статью и пропустили.

Интереснее сама статья. О ней говорится:
"– В чем отличие Вашей программы от той, которая написала «Корчевателя»?

– Программа SCIgen использует контекстно-свободную грамматику. Это хорошо известная алгоритмическая техника. В принципе, поскольку исходный код доступен, можно было бы переобучить программу на новом материале. Но это потребовало бы слишком больших усилий. Поэтому мы пошли другим путем. Мы использовали два известных алгоритма, которые были разработаны для других целей, но, как оказалось, подходят и в нашем случае, и, главное, не нуждаются в переобучении под каждую новую область.

Один алгоритм используется в известной библиографической биомедицинской базе данных PubMed, в которой есть понятие «близких по содержанию статей» (related articles). Алгоритм анализирует резюме статей и группирует их по сходству содержания. В нашей программе этот алгоритм составляет основу для статьи – последовательность фрагментов, в которых говорится про одно и то же.

Второй алгоритм называется «Марковский морфологический анализатор». Это лингвистическая техника, которая в нашем случае осуществляет редактирование последовательных фрагментов так, чтобы не было противоречий в грамматике – предложения должны согласовываться по времени, числу и т.п. Попросту говоря, текст должен быть «гладким»."

Статья тут. http://sun.tsu.ru/mminfo/000063105/phil/02/image/02-089.pdf
Read more...Collapse )
Как думаете - текст в самом деле сгенерирван - или это текст человеческий? то есть - человек редактировал машинный текст вручную или что-то такое?

Учтите - это к вопросу о ботах. Если это машинный текст, завтра будут уже и журналы, и комменты, таким обазом сделанные. И сообщения на форумах, и всякие там электронные письма...
Tags: science4
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 110 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →