• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

По вопросам, связанным с сайтом: portalhseling@gmail.com

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
Number in the World's Languages
В печати

Под редакцией: P. Acquaviva, M. Daniel.

Berlin: De Gruyter Mouton, 2020.

Статья
Relative clauses in Agul from a corpus-based perspective
В печати

Maisak T.

STUF - Language Typology and Universals . 2020. Vol. 73. No. 1. P. 1-46.

Глава в книге
Head/dependent marking
В печати

Lander Yu., Nichols J.

In bk.: The Oxford Encyclopedia of Morphology. Oxford: Oxford University Press, 2020.

Препринт
Length Of Constituent As A Relevant Factor In Russian Syntax

Letuchiy A.

Linguistics. WP BRP. НИУ ВШЭ, 2019. No. WP BRP 88/LNG/2019.

Курица не птица: мастер-класс по снятию лексической неоднозначности

Слушатели магистерской программы «Компьютерная лингвистика» узнали о современных методах автоматического разделения и выявления значений многозначных слов.

Очередной мастер-класс для студентов магистерской программы «Компьютерная лингвистика» провели научный сотрудник лаборатории нейролингвистики НИУ ВШЭ Анастасия Лопухина и разработчик компании ScrapingHub Константин Лопухин. Занятие было посвящено применению дистрибутивных семантических моделей для автоматического определения значения многозначных слов.

Дистрибутивная семантика опирается на идею о том, что значения слов определяется теми контекстами, в которых они употребляются («You shall know a word by the company it keeps»). Для слов, у которых есть одно выраженное значение, такие модели действительно работают хорошо: лампа в них оказывается очень близкой к светильнику, помидор к огурцу и т.д. Однако многозначные слова и омонимы создают трудности: ведь если лук в части текстов сочетается со словами овощ, есть, продукты, хлеб, а в части — со словами стрелы, натягивать, стрелять, арбалет, то дистрибутивный семантический вектор получится смешанным, далеким и от оружия, и от еды.

Автоматически разделить значения непросто, но нужно. Во-первых, без этого трудно применять многие другие средства компьютерного анализа текста, во-вторых, эти данные востребованы лингвистами, в-третьих, они нужны лексикографам, чтобы понять, какие значение в каком порядке стоит указывать в словарях. Последний момент особенно важен, т.к. с анализ показывает, что значения, указанные первыми в словаре, иногда оказываются очень редкими, низкочастотными, а частотные значения, наоборот, могут указываться в конце статьи или игнорироваться. Для некоторых слов наиболее частотными вообще оказываются метафорические значения (бешенство, бред, брешь, веха). К счастью, дистрибутивные модели можно адаптировать для работы с несколькими значениями одного слова. Именно о такой адаптации и рассказывали Анастасия и Константин.

В работе с многозначными словам традиционно выделяют две задачи. Первая из них  — Word sense disambiguation, то есть снятие лексической неоднозначности, предполагает,наличие нескольких заранее известных значений у слова (например, полученных из словаря или WordNet). При решении такой задачи с помощью дистрибутивных моделей можно создать для разных значений обучающие корпуса с соответствующими контекстами, после чего обучить модели на них и получить вектора отдельных значений (например, лук-растение и лук-оружие).

Вторая задача — Word sense induction, то есть порождение значений слова, считается более сложной. Она предполагает автоматическое выделение разных значений многозначных слов, не заданных заранее. Для выделения значений применяются разные подходы: кластеризация контекстов самого слова, кластеризация контекстов близких слов, тематическое моделирование контекстов. Один из наиболее современных методов — AdaGram, адаптивная версия алгоритма skip-gram (одного из двух стандартных алгоритмов дистрибутивной семантики), позволяющая строить отдельные вектора для отдельных значений слова. Во время мастер-класса Анастасия и Константин рассказали о своей работе, где с помощью AdaGram выявлялись слова с регулярной полисемией, например, еда/животное (курица, рыба, птица), содержимое/контейнер (бутылка, тарелка, чашка), свойство поверхности/свойство характера (нежный, грубый). Это исследование было представлено на конференции ACL 2016 в Осаке.