Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.
М.: Издательский дом НИУ ВШЭ, 2024.
Вопросы языкознания. 2024. № 2. С. 159-164.
В кн.: Клычевские чтения - 2024. Материалы международной научной конференции: труды конференции. Карачаевск: Издательство Карачаево-Черкесского государственного университета имени У.Д. Алиева, 2024.
Chistyakova K., Kazakova Tatiana.
Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.
Визуализация связей между словами в небольшом сэмпле Национального корпуса русского языка |
В традиционной дистрибутивной семантике каждая лексическая единица описывается вектором, где в качестве измерений или компонентов выступают другие слова лексикона, а в качестве значений этих компонентов — частота совместной встречаемости интересующей нас единицы с этими словами на данном корпусе (обычно взвешенная тем или иным образом). Векторы разных слов можно сравнивать (например, при помощи косинусного расстояния) и тем самым определять степень семантической близости этих слов. Однако размер векторов получается весьма большим (в общем случае равным числу слов в лексиконе корпуса)
В последние годы стали популярными нейронные или предсказательные модели, которые переворачивают этот подход с ног на голову. При обучении этих моделей целевым представлением каждого слова является сжатый вектор относительно небольшого размера (по-английски он называется embedding), для которого максимизируется сходство с векторами соседей и минимизируется сходство с векторами слов, его соседями не являющихся. Таким образом можно быстро получать векторные репрезентации слов во много тысяч раз компактнее, чем при традиционном подходе. При этом они демонстрируют отличное качество на стандартных семантических метриках. Типичный и самый известный представитель подобного подхода — утилита word2vec, представленная несколькими сотрудниками Google в 2013 году.
Векторные репрезентации применяют в любых практических задачах, где нужно автоматически сравнивать семантику слов или их последовательностей: для расширения поисковых запросов, машинного перевода, вычисления семантической близости, классификации и кластеризации текстов, определения тональности высказывания и многого другого. Мы исследуем вопросы влияния на качество нейронных моделей тренировочных корпусов и тонких настроек алгоритмов обучения. Кроме того, мы используем векторные репрезентации, полученные с их помощью, для сравнения представленности лексических единиц в разных корпусах.
Поэкспериментировать с одной из наших моделей для русского языка можно на специально созданном ресурсе "Семантический калькулятор".
Лекция Андрея Кутузова о дистрибутивной семантике в малой Школе Анализа Данных (ШАД) Яндекса: