• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
История стиховедения и формализм

Орехов Б. В.

Слово.ру: балтийский акцент. 2024. Т. 15. № 4. С. 147-157.

Глава в книге
The Parallel Corpus of Russian and Ruska Romani Languages

Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.

In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

«Плоть ли я дрожащая…»: доцент школы лингвистики научил компьютер писать векторные романы

Автоматически порожденные «альтернативные версии» русской классики позволяют по-новому взглянуть на лингвистику художественного текста и переосмыслить сам процесс литературного творчества.

Неизвестный на Патриарших

Неизвестный на Патриарших
Гариф Басыров

Компьютерная лингвистика позволяет вычислять семантическую близость, то есть автоматически находить слова, которые ближе всего друг к другу по своему значению. Это можно делать благодаря так называемым векторным моделям, которые извлекают знание о значениях слов из статистики их употребления в различных контекстах на больших массивах данных (миллионы текстов). Например, если слова лампа и светильник регулярно употребляются в похожих случаях (зажечь лампу/светильник, погасить лампу/светильник, лампа /светильник на 100 ватт и т.п.), такая модель будет считать их близкими. Для работы с векторными моделями в школе лингвистики НИУ ВШЭ создан сервис RusVectōrēs, пользоваться которым может любой желающий.

Да вспомнил, хоть не без прегрешения,
Из Энеиды два стихотворения.

Доцент школы лингвистики Борис Орехов с помощью RusVectōrēs решил выяснить, что произойдет, если в хорошо знакомых нам со школы текстах заменить все слова на самые близкие по смыслу. Для своего эксперимента он взял пять классических русских романов: «Евгений Онегин», «Преступление и наказание», «Война и мир», «Отцы и дети», «Мастер и Маргарита» (писатель и литературовед Дмитрий Быков считает, что романы, содержащие в своём названии «и», играют особенную роль в истории русской литературы). К каждому слову в тексте романа, исключая служебные части речи, были автоматически подобраны близкие по значению слова — так называемые квазисинонимы. Использованная для этого модель RusVectōrēs построена на текстах Национального корпуса русского языка и Википедии.

Испытания на читателях показывают, что получившиеся в результате «векторного преобразования» тексты могут увлекать не меньше оригиналов. Угадывая в строке «Тренькают конногвардейца ботфорты» исходное пушкинское «Бренчат кавалергарда шпоры», можно испытать настоящую «радость узнавания», а булгаковский Воланд, перенесенный с московских Патриарших прудов на казанские Митрополичьи ручьи (sic!), воспринимается как фрагмент параллельной реальности, в которой роман «Мастер и Маргарита» действительн был написан именно так. В той же альтернативной действительности Раскольников спрашивает себя, «плоть ли я дрожащая», а эпопея Толстого называется «Кампания и континент».

Как и везде, где замешаны статистические методы, в векторных романах неизбежно встречаются различные казусы и курьезы. Многие из них связаны с неоднозначностью слов или появлением у них новых смыслов. Так, важное для «Евгения Онегина» слово сплин было заменено на чайф — именно оно оказывается наиболее семантически близким при обучении модели на современных текстах. Дело здесь, разумеется, в названиях музыкальных групп.

Ранее схожие опыты проводились для английского — к примеру, можно найти попытку сделать такие же замены в романе «Гордость и предубеждение». Однако с английским языком проделать такое гораздо проще: там нет ни склонения, ни согласования по роду, и спряжение весьма редуцированное. В русском тексте просто заменить одну произвольную форму слова на другую нельзя — он распадётся и станет аграмматичным, нечитаемым. Поэтому замену приходится производить более сложным способом, используя морфологический разбор исходного слова и автоматически порождая нужную грамматическую форму для слова-замены. Для этого применялся Морфологический анализатор pymorphy2, который способен делать и то, и другое: и устанавливать грамматическую форму слова, и генерировать новую форму. Программный код, с помощью которого осуществлялись замены, доступен на GitHub.

Замене подвергались только самостоятельные части речи: существительные, прилагательные, глаголы и наречия. Имена собственные в большинстве своем сохранялись. Если в векторной модели для слова не находилось квазисинонимов, то оно не заменялось.

Как многие другие современные исследования, выполненные в русле Digital Humanities, векторные романы могут вызывать недоумение и вопрос «Зачем это нужно?». У Бориса Орехова есть ответ на этот вопрос:

 Конечно, в большей степени получившийся результат — это развлечение. Но не только. На основе этих текстов можно составлять задания для «олимпиад» по литературе. Кроме того, как кажется, эти тексты можно использовать для медленного чтения. Они могут помочь на каждом шаге задавать себе вопросы: «Почему здесь стоит это слово, а не другое?», «Что это нам даёт и что это меняет в нашем восприятии?» То есть, по сути, речь идёт о литературоведческом эксперименте, о введении экспериментальной плоскости в науку, которая, казалось бы, лишена её от природы и навсегда.

Орехов Борис Валерьевич
Школа лингвистики: Доцент

 Ознакомиться с векторными романами можно здесь