Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.
In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.
arxiv.org. Computer Science. Cornell University, 2024
Компьютерная лингвистика позволяет вычислять семантическую близость, то есть автоматически находить слова, которые ближе всего друг к другу по своему значению. Это можно делать благодаря так называемым векторным моделям, которые извлекают знание о значениях слов из статистики их употребления в различных контекстах на больших массивах данных (миллионы текстов). Например, если слова лампа и светильник регулярно употребляются в похожих случаях (зажечь лампу/светильник, погасить лампу/светильник, лампа /светильник на 100 ватт и т.п.), такая модель будет считать их близкими. Для работы с векторными моделями в школе лингвистики НИУ ВШЭ создан сервис RusVectōrēs, пользоваться которым может любой желающий.
Да вспомнил, хоть не без прегрешения,
Из Энеиды два стихотворения.
Доцент школы лингвистики Борис Орехов с помощью RusVectōrēs решил выяснить, что произойдет, если в хорошо знакомых нам со школы текстах заменить все слова на самые близкие по смыслу. Для своего эксперимента он взял пять классических русских романов: «Евгений Онегин», «Преступление и наказание», «Война и мир», «Отцы и дети», «Мастер и Маргарита» (писатель и литературовед Дмитрий Быков считает, что романы, содержащие в своём названии «и», играют особенную роль в истории русской литературы). К каждому слову в тексте романа, исключая служебные части речи, были автоматически подобраны близкие по значению слова — так называемые квазисинонимы. Использованная для этого модель RusVectōrēs построена на текстах Национального корпуса русского языка и Википедии.
Испытания на читателях показывают, что получившиеся в результате «векторного преобразования» тексты могут увлекать не меньше оригиналов. Угадывая в строке «Тренькают конногвардейца ботфорты» исходное пушкинское «Бренчат кавалергарда шпоры», можно испытать настоящую «радость узнавания», а булгаковский Воланд, перенесенный с московских Патриарших прудов на казанские Митрополичьи ручьи (sic!), воспринимается как фрагмент параллельной реальности, в которой роман «Мастер и Маргарита» действительн был написан именно так. В той же альтернативной действительности Раскольников спрашивает себя, «плоть ли я дрожащая», а эпопея Толстого называется «Кампания и континент».
Как и везде, где замешаны статистические методы, в векторных романах неизбежно встречаются различные казусы и курьезы. Многие из них связаны с неоднозначностью слов или появлением у них новых смыслов. Так, важное для «Евгения Онегина» слово сплин было заменено на чайф — именно оно оказывается наиболее семантически близким при обучении модели на современных текстах. Дело здесь, разумеется, в названиях музыкальных групп.
Ранее схожие опыты проводились для английского — к примеру, можно найти попытку сделать такие же замены в романе «Гордость и предубеждение». Однако с английским языком проделать такое гораздо проще: там нет ни склонения, ни согласования по роду, и спряжение весьма редуцированное. В русском тексте просто заменить одну произвольную форму слова на другую нельзя — он распадётся и станет аграмматичным, нечитаемым. Поэтому замену приходится производить более сложным способом, используя морфологический разбор исходного слова и автоматически порождая нужную грамматическую форму для слова-замены. Для этого применялся Морфологический анализатор pymorphy2, который способен делать и то, и другое: и устанавливать грамматическую форму слова, и генерировать новую форму. Программный код, с помощью которого осуществлялись замены, доступен на GitHub.
Замене подвергались только самостоятельные части речи: существительные, прилагательные, глаголы и наречия. Имена собственные в большинстве своем сохранялись. Если в векторной модели для слова не находилось квазисинонимов, то оно не заменялось.
Как многие другие современные исследования, выполненные в русле Digital Humanities, векторные романы могут вызывать недоумение и вопрос «Зачем это нужно?». У Бориса Орехова есть ответ на этот вопрос:
Конечно, в большей степени получившийся результат — это развлечение. Но не только. На основе этих текстов можно составлять задания для «олимпиад» по литературе. Кроме того, как кажется, эти тексты можно использовать для медленного чтения. Они могут помочь на каждом шаге задавать себе вопросы: «Почему здесь стоит это слово, а не другое?», «Что это нам даёт и что это меняет в нашем восприятии?» То есть, по сути, речь идёт о литературоведческом эксперименте, о введении экспериментальной плоскости в науку, которая, казалось бы, лишена её от природы и навсегда.
Ознакомиться с векторными романами можно здесь.
Орехов Борис Валерьевич
Школа лингвистики: Доцент