• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
Корпусная лингвистика на современном этапе

Плунгян В. А.

Вестник Российской академии наук. 2024. Т. 94. № 9. С. 787-794.

Глава в книге
Time Series Generation with GANs for Momentum Effect Simulation on Moscow Stock Exchange
В печати

Pozdnyakov V., Makarov I., Maksim Kazadaev.

In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Алго-рифмы: компьютерные лингвисты из Вышки на филологической конференции в Тарту

Конференция молодых филологов в Тарту (она же «тартуская молодежка») давно вошла в обязательную программу научных выездов вышкинцев-филологов. Каждую весну в «Афины на Эмбахе» съезжаются исследователи словесности, знатоки Жуковского и Баратынского, любители Блока и Мандельштама. В стенах старинного Тартуского университета, славящегося своими филологическими традициями, литературоведы обсуждают влияние Диккенса на Льва Толстого, пересчитывают корабли из мандельштамовского списка, спорят о том, какой танец танцевала Наташа Ростова в гостях у дядюшки. 

Однако с этого года у «молодежки» появился компьютерный «привкус» - секция «Цифровые гуманитарные науки». На этот раз вместе с литературоведами в Тарту высадился полноценный десант компьютерных лингвистов. Новые участники конференции, представляющие Школу лингвистики ВШЭ (а это совсем не то же самое, что Школа филологии), в своих выступлениях показали, как можно получать новые знания о художественных произведениях при помощи различных методов автоматической обработки текста. 


Компьютеру трудно сравниться с человеком «на короткой воде»: если необходимо понять что-то об одном-двух произведениях, ученый-филолог обычно может обойтись без всякой автоматизации. Другое дело – когда речь идет об огромном корпусе текстов, в котором миллионы слов. Тогда хорошо продуманная машинная предобработка может сэкономить десятки, а то и сотни часов труда исследователей. Пример такого корпуса – собрание сочинений Л.Н. Толстого, 90 томов которого содержат 46000 страниц текста – итог долгой и невероятно продуктивной жизни великого писателя.


Аспирант Школы лингвистики Даниил Скоринкин рассказал о подготовке электронного «семантического» издания 90-томника Толстого, которое получит дополнительный машиночитаемый слой и позволит обращаться к тексту с нетривиальными вопросами. Например, посмотреть все реплики того или иного героя, получить список корреспондентов Толстого за определенный год, выстроить в цепочку письма, и даже просто увидеть все случаи, где один участок текста был исправлен и заменен другим (а таких исправлений и вставок у Толстого – десятки тысяч). Возможность получать подобную информацию «в один клик» даст специальная метаразметка, создаваемая в полуавтоматическом режиме и соответствующая международному стандарту TEI (Text Encoding Initiative).


Разумеется, дополнительный информационный слой «поверх» текста может помочь узнать новое не только профессиональным исследователям-филологам. Почти каждый современный читатель сталкивается с незнакомыми словами при чтении русской классики. Что такое брульон? Где служит фурштатский солдат? Как будут ехать лошади, если их запрячь цугом? Программа, которую представила Любовь Полянская, студентка 2 курса бакалавриата, призвана автоматически выявлять редкие или вышедшие из употребления слова и порождать к ним разъясняющие комментарии.


А может ли компьютер сам справляться со сложными аналитическими задачами вроде датировки художественных произведений? Ответить на этот вопрос попытался студента 3 курса бакалавриата Алексей Агапов. Он представил результаты работы по автоматическому определению даты написания литературного произведения. Его программа с небольшими погрешностями идентифицировала даты написания нескольких переводов Гамлета на русский язык. Сильное расхождение с настоящей датировкой выявилось лишь в одном случае, где переводчик намеренно стилизовал текст «под старину».


Многие знаменитые литературоведы задумывались о связи между метрикой стихотворения и его темой: если перед нами стихотворение, написанное трехстопным анапестом с женской клаузулой, то, вероятнее всего, оно о любви? или о смерти? или это поздравление на юбилей?.. Эльмира Мустакимова, студентка 3 курса бакалавриата, решила помочь коллегам-филологам и написала программу, которая вычленяет из стихотворений ключевые слова, собирает их в семантический ореол (для каждого метра он свой). Специалист может проанализировать такие «облака» слов и найти общую для какого-либо метра тему, кочующую из стихотворения в стихотворение.


Одна из самых «скандальных» тем в современном литературоведении – определение авторства текста. В спорах о том, кто же написал «Тихий дон», «Гамлета» и «Илиаду», сломано больше копий, чем во всех битвах Троянской войны. На эту опасную территорию решилась зайти Мария Объедкова, студентка 2 курса бакалавриата. В своем исследовании Мария выяснила, какие свойства текстов позволяют говорить о том, что они принадлежат перу одного человека.


Разумеется, на филологической конференции не обошлось без разговора о том, что называется моднымсловом «интертекстуальность». Переклички между произведениями, ссылки одного автора на другого, скрытые и явные цитаты – все это давно относится к магистральным темам литературоведения. Наталия Тышкевич, студентка 4 курса бакалавриата, поделилась результатами своей дипломной работы, посвященной автоматическому определению цитат в тексте. Материалом для исследования послужили несколько литературных журналов. Во время доклада слушатели смогли проверить память и эрудицию, вспоминая авторов наиболее часто цитируемых строк.


После успешного выступления у лингвистов была возможность пообщаться с филологами (и не только) в неформальной обстановке – прогуливаясь по зеленеющим паркам и холмам весеннего Тарту, обедая в мрачном старинном «пороховом погребе», а также сидя на берегу Эмайыги с вином и мандаринами. В такой обстановке неудивительно, что коллектив участников и слушателей конференции единогласно решил следовать заветам кота Леопольда и жить дружно.

Любовь Полянская,
студентка второго курса бакалавриата
Школы лингвистики

Даниил Скоринкин,
аспирант Школы лингвистики