• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
Number in the World's Languages
В печати

Под редакцией: P. Acquaviva, M. Daniel.

Berlin: De Gruyter Mouton, 2022.

Статья
Особенности изображения ада в миниатюре рукописи It. 2017 из Национальной библиотеки Франции

Мамлина А. Б.

Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 5: Вопросы истории и теории христианского искусства. 2022. № 45. С. 9-27.

Глава в книге
Applicative constructions in the Northwest Caucasian languages
В печати

Arkadiev Peter, Lander Y., Bagirokova I.

In bk.: Applicative Constructions in the World's Languages. Berlin: De Gruyter Mouton, 2023.

Препринт
A hybrid lemmatiser for Old Church Slavonic

Afanasev I.

Linguistics. WP BRP. НИУ ВШЭ, 2021

Курица не птица: мастер-класс по снятию лексической неоднозначности

Слушатели магистерской программы «Компьютерная лингвистика» узнали о современных методах автоматического разделения и выявления значений многозначных слов.

Очередной мастер-класс для студентов магистерской программы «Компьютерная лингвистика» провели научный сотрудник лаборатории нейролингвистики НИУ ВШЭ Анастасия Лопухина и разработчик компании ScrapingHub Константин Лопухин. Занятие было посвящено применению дистрибутивных семантических моделей для автоматического определения значения многозначных слов.

Дистрибутивная семантика опирается на идею о том, что значения слов определяется теми контекстами, в которых они употребляются («You shall know a word by the company it keeps»). Для слов, у которых есть одно выраженное значение, такие модели действительно работают хорошо: лампа в них оказывается очень близкой к светильнику, помидор к огурцу и т.д. Однако многозначные слова и омонимы создают трудности: ведь если лук в части текстов сочетается со словами овощ, есть, продукты, хлеб, а в части — со словами стрелы, натягивать, стрелять, арбалет, то дистрибутивный семантический вектор получится смешанным, далеким и от оружия, и от еды.

Автоматически разделить значения непросто, но нужно. Во-первых, без этого трудно применять многие другие средства компьютерного анализа текста, во-вторых, эти данные востребованы лингвистами, в-третьих, они нужны лексикографам, чтобы понять, какие значение в каком порядке стоит указывать в словарях. Последний момент особенно важен, т.к. с анализ показывает, что значения, указанные первыми в словаре, иногда оказываются очень редкими, низкочастотными, а частотные значения, наоборот, могут указываться в конце статьи или игнорироваться. Для некоторых слов наиболее частотными вообще оказываются метафорические значения (бешенство, бред, брешь, веха). К счастью, дистрибутивные модели можно адаптировать для работы с несколькими значениями одного слова. Именно о такой адаптации и рассказывали Анастасия и Константин.

В работе с многозначными словам традиционно выделяют две задачи. Первая из них  — Word sense disambiguation, то есть снятие лексической неоднозначности, предполагает,наличие нескольких заранее известных значений у слова (например, полученных из словаря или WordNet). При решении такой задачи с помощью дистрибутивных моделей можно создать для разных значений обучающие корпуса с соответствующими контекстами, после чего обучить модели на них и получить вектора отдельных значений (например, лук-растение и лук-оружие).

Вторая задача — Word sense induction, то есть порождение значений слова, считается более сложной. Она предполагает автоматическое выделение разных значений многозначных слов, не заданных заранее. Для выделения значений применяются разные подходы: кластеризация контекстов самого слова, кластеризация контекстов близких слов, тематическое моделирование контекстов. Один из наиболее современных методов — AdaGram, адаптивная версия алгоритма skip-gram (одного из двух стандартных алгоритмов дистрибутивной семантики), позволяющая строить отдельные вектора для отдельных значений слова. Во время мастер-класса Анастасия и Константин рассказали о своей работе, где с помощью AdaGram выявлялись слова с регулярной полисемией, например, еда/животное (курица, рыба, птица), содержимое/контейнер (бутылка, тарелка, чашка), свойство поверхности/свойство характера (нежный, грубый). Это исследование было представлено на конференции ACL 2016 в Осаке.