Нейронные языковые модели в дистрибутивной семантике

Наши подразделения и проекты

Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.

Публикации

Книга

Митрополиты, мудрецы, переводчики в cредневековой Европе

Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.

М.: Издательский дом НИУ ВШЭ, 2024.

Статья

[Рец. на: / Review of:] Lars Johanson. Code Copying. The strength of languages in take-over and carry-over roles. Leiden: Brill, 2023.

Майсак Т. А.

Вопросы языкознания. 2024. № 2. С. 159-164.

Глава в книге

Псевдоклефты и «вопросительные слова» в апсуанском говоре абазинского языка
В печати

Ландер Ю. А.

В кн.: Клычевские чтения - 2024. Материалы международной научной конференции: труды конференции. Карачаевск: Издательство Карачаево-Черкесского государственного университета имени У.Д. Алиева, 2024.

Препринт

Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

Все публикации


Визуализация связей между словами в небольшом сэмпле Национального корпуса русского языка

Откуда мы знаем, что у слов "светильник" и "лампа" схожее значение? Как эта информация хранится в человеческом мозге? Как человек обучается семантике слов и словосочетаний? Дистрибутивная семантика утверждает, что значение слова — это в каком-то смысле просто сумма всех тех контекстов, в рамках которых мы его слышали или видели. Следовательно, если мы хотим научить компьютер (искусственный интеллект) "понимать" семантику, нам нужно построить некую модель этих контекстов на достаточно большом текстовом корпусе. В пределе, если у двух слов в таком корпусе всегда одни и те же соседи — то эти слова означают ровно одно и то же.

В традиционной дистрибутивной семантике каждая лексическая единица описывается вектором, где в качестве измерений или компонентов выступают другие слова лексикона, а в качестве значений этих компонентов — частота совместной встречаемости интересующей нас единицы с этими словами на данном корпусе (обычно взвешенная тем или иным образом). Векторы разных слов можно сравнивать (например, при помощи косинусного расстояния) и тем самым определять степень семантической близости этих слов. Однако размер векторов получается весьма большим (в общем случае равным числу слов в лексиконе корпуса)

В последние годы стали популярными нейронные или предсказательные модели, которые переворачивают этот подход с ног на голову. При обучении этих моделей целевым представлением каждого слова является сжатый вектор относительно небольшого размера (по-английски он называется embedding), для которого максимизируется сходство с векторами соседей и минимизируется сходство с векторами слов, его соседями не являющихся. Таким образом можно быстро получать векторные репрезентации слов во много тысяч раз компактнее, чем при традиционном подходе. При этом они демонстрируют отличное качество на стандартных семантических метриках. Типичный и самый известный представитель подобного подхода — утилита word2vec, представленная несколькими сотрудниками Google в 2013 году.

Векторные репрезентации применяют в любых практических задачах, где нужно автоматически сравнивать семантику слов или их последовательностей: для расширения поисковых запросов, машинного перевода, вычисления семантической близости, классификации и кластеризации текстов, определения тональности высказывания и многого другого. Мы исследуем вопросы влияния на качество нейронных моделей тренировочных корпусов и тонких настроек алгоритмов обучения. Кроме того, мы используем векторные репрезентации, полученные с их помощью, для сравнения представленности лексических единиц в разных корпусах.

Поэкспериментировать с одной из наших моделей для русского языка можно на специально созданном ресурсе "Семантический калькулятор".

Лекция Андрея Кутузова о дистрибутивной семантике в малой Школе Анализа Данных (ШАД) Яндекса: