• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Статья
Язык Л. Н. Толстого: корпусный подход и интроспекция

Орехов Б. В.

Труды института русского языка им. В.В. Виноградова. 2024. № 1. С. 67-73.

Глава в книге
Languages examined or referred to in the present book

Creissels D., Zúñiga F., Moroz G.

In bk.: Applicative Constructions in the World's Languages. Berlin: De Gruyter Mouton, 2024. P. 61-73.

Препринт
Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

Нейронные языковые модели в дистрибутивной семантике

Граф совместной встречаемости лексических единиц
Визуализация связей между словами в небольшом сэмпле Национального корпуса русского языка
Откуда мы знаем, что у слов "светильник" и "лампа" схожее значение? Как эта информация хранится в человеческом мозге? Как человек обучается семантике слов и словосочетаний? Дистрибутивная семантика утверждает, что значение слова — это в каком-то смысле просто сумма всех тех контекстов, в рамках которых мы его слышали или видели.  Следовательно, если мы хотим научить компьютер (искусственный интеллект) "понимать" семантику, нам нужно построить некую модель этих контекстов на достаточно большом текстовом корпусе. В пределе, если у двух слов в таком корпусе всегда одни и те же соседи — то эти слова означают ровно одно и то же.

В традиционной дистрибутивной семантике каждая лексическая единица описывается вектором, где в качестве измерений или компонентов выступают другие слова лексикона, а в качестве значений этих компонентов — частота совместной встречаемости интересующей нас единицы с этими словами на данном корпусе (обычно взвешенная тем или иным образом).  Векторы разных слов можно сравнивать (например, при помощи косинусного расстояния) и тем самым определять степень семантической близости этих слов. Однако размер векторов получается весьма большим (в общем случае равным числу слов в лексиконе корпуса)

В последние годы стали популярными нейронные или предсказательные модели, которые переворачивают этот подход с ног на голову.  При обучении этих моделей целевым представлением каждого слова является сжатый вектор относительно небольшого размера (по-английски он называется embedding), для которого максимизируется сходство с векторами соседей и минимизируется сходство с векторами слов, его соседями не являющихся. Таким образом можно быстро получать векторные репрезентации слов во много тысяч раз компактнее, чем при традиционном подходе. При этом они демонстрируют отличное качество на стандартных семантических метриках. Типичный и самый известный представитель подобного подхода — утилита word2vec, представленная несколькими сотрудниками Google в 2013 году.

Векторные репрезентации применяют в любых практических задачах, где нужно автоматически сравнивать семантику слов или их последовательностей: для расширения поисковых запросов, машинного перевода, вычисления семантической близости, классификации и кластеризации текстов, определения тональности высказывания и многого другого. Мы исследуем вопросы влияния на качество нейронных моделей тренировочных корпусов и тонких настроек алгоритмов обучения. Кроме того, мы используем векторные репрезентации, полученные с их помощью, для сравнения представленности лексических единиц в разных корпусах.

Поэкспериментировать с одной из наших моделей для русского языка можно на специально созданном ресурсе "Семантический калькулятор".

Лекция Андрея Кутузова о дистрибутивной семантике в малой Школе Анализа Данных (ШАД) Яндекса: