Алго-рифмы: компьютерные лингвисты из Вышки на филологической конференции в Тарту

Конференция молодых филологов в Тарту (она же «тартуская молодежка») давно вошла в обязательную программу научных выездов вышкинцев-филологов. Каждую весну в «Афины на Эмбахе» съезжаются исследователи словесности, знатоки Жуковского и Баратынского, любители Блока и Мандельштама. В стенах старинного Тартуского университета, славящегося своими филологическими традициями, литературоведы обсуждают влияние Диккенса на Льва Толстого, пересчитывают корабли из мандельштамовского списка, спорят о том, какой танец танцевала Наташа Ростова в гостях у дядюшки.

Однако с этого года у «молодежки» появился компьютерный «привкус» - секция «Цифровые гуманитарные науки». На этот раз вместе с литературоведами в Тарту высадился полноценный десант компьютерных лингвистов. Новые участники конференции, представляющие Школу лингвистики ВШЭ (а это совсем не то же самое, что Школа филологии), в своих выступлениях показали, как можно получать новые знания о художественных произведениях при помощи различных методов автоматической обработки текста.

Компьютеру трудно сравниться с человеком «на короткой воде»: если необходимо понять что-то об одном-двух произведениях, ученый-филолог обычно может обойтись без всякой автоматизации. Другое дело – когда речь идет об огромном корпусе текстов, в котором миллионы слов. Тогда хорошо продуманная машинная предобработка может сэкономить десятки, а то и сотни часов труда исследователей. Пример такого корпуса – собрание сочинений Л.Н. Толстого, 90 томов которого содержат 46000 страниц текста – итог долгой и невероятно продуктивной жизни великого писателя.

Аспирант Школы лингвистики Даниил Скоринкин рассказал о подготовке электронного «семантического» издания 90-томника Толстого, которое получит дополнительный машиночитаемый слой и позволит обращаться к тексту с нетривиальными вопросами. Например, посмотреть все реплики того или иного героя, получить список корреспондентов Толстого за определенный год, выстроить в цепочку письма, и даже просто увидеть все случаи, где один участок текста был исправлен и заменен другим (а таких исправлений и вставок у Толстого – десятки тысяч). Возможность получать подобную информацию «в один клик» даст специальная метаразметка, создаваемая в полуавтоматическом режиме и соответствующая международному стандарту TEI (Text Encoding Initiative).

Разумеется, дополнительный информационный слой «поверх» текста может помочь узнать новое не только профессиональным исследователям-филологам. Почти каждый современный читатель сталкивается с незнакомыми словами при чтении русской классики. Что такое брульон? Где служит фурштатский солдат? Как будут ехать лошади, если их запрячь цугом? Программа, которую представила Любовь Полянская, студентка 2 курса бакалавриата, призвана автоматически выявлять редкие или вышедшие из употребления слова и порождать к ним разъясняющие комментарии.

А может ли компьютер сам справляться со сложными аналитическими задачами вроде датировки художественных произведений? Ответить на этот вопрос попытался студента 3 курса бакалавриата Алексей Агапов. Он представил результаты работы по автоматическому определению даты написания литературного произведения. Его программа с небольшими погрешностями идентифицировала даты написания нескольких переводов Гамлета на русский язык. Сильное расхождение с настоящей датировкой выявилось лишь в одном случае, где переводчик намеренно стилизовал текст «под старину».

Многие знаменитые литературоведы задумывались о связи между метрикой стихотворения и его темой: если перед нами стихотворение, написанное трехстопным анапестом с женской клаузулой, то, вероятнее всего, оно о любви? или о смерти? или это поздравление на юбилей?.. Эльмира Мустакимова, студентка 3 курса бакалавриата, решила помочь коллегам-филологам и написала программу, которая вычленяет из стихотворений ключевые слова, собирает их в семантический ореол (для каждого метра он свой). Специалист может проанализировать такие «облака» слов и найти общую для какого-либо метра тему, кочующую из стихотворения в стихотворение.

Одна из самых «скандальных» тем в современном литературоведении – определение авторства текста. В спорах о том, кто же написал «Тихий дон», «Гамлета» и «Илиаду», сломано больше копий, чем во всех битвах Троянской войны. На эту опасную территорию решилась зайти Мария Объедкова, студентка 2 курса бакалавриата. В своем исследовании Мария выяснила, какие свойства текстов позволяют говорить о том, что они принадлежат перу одного человека.

Разумеется, на филологической конференции не обошлось без разговора о том, что называется моднымсловом «интертекстуальность». Переклички между произведениями, ссылки одного автора на другого, скрытые и явные цитаты – все это давно относится к магистральным темам литературоведения. Наталия Тышкевич, студентка 4 курса бакалавриата, поделилась результатами своей дипломной работы, посвященной автоматическому определению цитат в тексте. Материалом для исследования послужили несколько литературных журналов. Во время доклада слушатели смогли проверить память и эрудицию, вспоминая авторов наиболее часто цитируемых строк.

После успешного выступления у лингвистов была возможность пообщаться с филологами (и не только) в неформальной обстановке – прогуливаясь по зеленеющим паркам и холмам весеннего Тарту, обедая в мрачном старинном «пороховом погребе», а также сидя на берегу Эмайыги с вином и мандаринами. В такой обстановке неудивительно, что коллектив участников и слушателей конференции единогласно решил следовать заветам кота Леопольда и жить дружно.

Любовь Полянская,
студентка второго курса бакалавриата
Школы лингвистики

Даниил Скоринкин,
аспирант Школы лингвистики

Дата

18 мая, 2015 г.

Рубрики

Наука

Темы

лектории студенты репортаж о событии

В статье упомянуты

Школа лингвистики