• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Мероприятия
Книга
Verba sonandi : Représentation linguistique des cris d’animaux

Presses Universitaires de Provence, 2017.

Статья
Рецензия на сборник «Контенсивные аспекты языка: константность и вариативность» Сборник статей в честь О.А. Сулеймановой / Отв. ред.: д.ф.н., проф. Т.Д. Шабанова. – М.: ФЛИНТА, 2016. – 218 с.

Рахилина Е. В.

Вестник Московского городского педагогического университета. Серия: Филология. Теория языка. Языковое образование. 2017. № 3.

Глава в книге
Structure des transferts métaphoriques

Rakhilina E. V.

In bk.: Verba sonandi : Représentation linguistique des cris d’animaux. Presses Universitaires de Provence, 2017. P. 267-276.

Курица не птица: мастер-класс по снятию лексической неоднозначности

Слушатели магистерской программы «Компьютерная лингвистика» узнали о современных методах автоматического разделения и выявления значений многозначных слов.

Очередной мастер-класс для студентов магистерской программы «Компьютерная лингвистика» провели научный сотрудник лаборатории нейролингвистики НИУ ВШЭ Анастасия Лопухина и разработчик компании ScrapingHub Константин Лопухин. Занятие было посвящено применению дистрибутивных семантических моделей для автоматического определения значения многозначных слов.

Дистрибутивная семантика опирается на идею о том, что значения слов определяется теми контекстами, в которых они употребляются («You shall know a word by the company it keeps»). Для слов, у которых есть одно выраженное значение, такие модели действительно работают хорошо: лампа в них оказывается очень близкой к светильнику, помидор к огурцу и т.д. Однако многозначные слова и омонимы создают трудности: ведь если лук в части текстов сочетается со словами овощ, есть, продукты, хлеб, а в части — со словами стрелы, натягивать, стрелять, арбалет, то дистрибутивный семантический вектор получится смешанным, далеким и от оружия, и от еды.

Автоматически разделить значения непросто, но нужно. Во-первых, без этого трудно применять многие другие средства компьютерного анализа текста, во-вторых, эти данные востребованы лингвистами, в-третьих, они нужны лексикографам, чтобы понять, какие значение в каком порядке стоит указывать в словарях. Последний момент особенно важен, т.к. с анализ показывает, что значения, указанные первыми в словаре, иногда оказываются очень редкими, низкочастотными, а частотные значения, наоборот, могут указываться в конце статьи или игнорироваться. Для некоторых слов наиболее частотными вообще оказываются метафорические значения (бешенство, бред, брешь, веха). К счастью, дистрибутивные модели можно адаптировать для работы с несколькими значениями одного слова. Именно о такой адаптации и рассказывали Анастасия и Константин.

В работе с многозначными словам традиционно выделяют две задачи. Первая из них  — Word sense disambiguation, то есть снятие лексической неоднозначности, предполагает,наличие нескольких заранее известных значений у слова (например, полученных из словаря или WordNet). При решении такой задачи с помощью дистрибутивных моделей можно создать для разных значений обучающие корпуса с соответствующими контекстами, после чего обучить модели на них и получить вектора отдельных значений (например, лук-растение и лук-оружие).

Вторая задача — Word sense induction, то есть порождение значений слова, считается более сложной. Она предполагает автоматическое выделение разных значений многозначных слов, не заданных заранее. Для выделения значений применяются разные подходы: кластеризация контекстов самого слова, кластеризация контекстов близких слов, тематическое моделирование контекстов. Один из наиболее современных методов — AdaGram, адаптивная версия алгоритма skip-gram (одного из двух стандартных алгоритмов дистрибутивной семантики), позволяющая строить отдельные вектора для отдельных значений слова. Во время мастер-класса Анастасия и Константин рассказали о своей работе, где с помощью AdaGram выявлялись слова с регулярной полисемией, например, еда/животное (курица, рыба, птица), содержимое/контейнер (бутылка, тарелка, чашка), свойство поверхности/свойство характера (нежный, грубый). Это исследование было представлено на конференции ACL 2016 в Осаке.