• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Мероприятия
Книга
Рукописи. Редкие издания. Архивы. Из фондов Отдела редких книг и рукописей

Лифшиц А. Л., Мастерков А., Мастеркова А. и др.

Вып. 10. М.: Новый хронограф, 2017.

Статья
Una eina per a una llengua en procés d'estandardització: el traductor automàtic català-sard

Alòs i Font H., Fronteddu G., Tyers F. M.

Linguamática. 2017. Vol. 9. No. 2. P. 3-20.

Глава в книге
О выражении множественных непрямых объектов в адыгейском глаголе

Багирокова И. Г., Ландер Ю. А., Мороз Г. А.

В кн.: Становление и развитие младописьменных языков. К 120-летию со дня рождения выдающегося языковеда, основоположника адыгейского языкознания Д.А. Ашхамафа: материалы Международной научной конференции (Майкоп, 21-23 июня 2017 г.). Майкоп: 2017. С. 23-27.

Препринт
Nominative object in modern North Russian dialects

Ronko R.

Linguistics. WP BRP. НИУ ВШЭ, 2017. No. 61.

Курица не птица: мастер-класс по снятию лексической неоднозначности

Слушатели магистерской программы «Компьютерная лингвистика» узнали о современных методах автоматического разделения и выявления значений многозначных слов.

Очередной мастер-класс для студентов магистерской программы «Компьютерная лингвистика» провели научный сотрудник лаборатории нейролингвистики НИУ ВШЭ Анастасия Лопухина и разработчик компании ScrapingHub Константин Лопухин. Занятие было посвящено применению дистрибутивных семантических моделей для автоматического определения значения многозначных слов.

Дистрибутивная семантика опирается на идею о том, что значения слов определяется теми контекстами, в которых они употребляются («You shall know a word by the company it keeps»). Для слов, у которых есть одно выраженное значение, такие модели действительно работают хорошо: лампа в них оказывается очень близкой к светильнику, помидор к огурцу и т.д. Однако многозначные слова и омонимы создают трудности: ведь если лук в части текстов сочетается со словами овощ, есть, продукты, хлеб, а в части — со словами стрелы, натягивать, стрелять, арбалет, то дистрибутивный семантический вектор получится смешанным, далеким и от оружия, и от еды.

Автоматически разделить значения непросто, но нужно. Во-первых, без этого трудно применять многие другие средства компьютерного анализа текста, во-вторых, эти данные востребованы лингвистами, в-третьих, они нужны лексикографам, чтобы понять, какие значение в каком порядке стоит указывать в словарях. Последний момент особенно важен, т.к. с анализ показывает, что значения, указанные первыми в словаре, иногда оказываются очень редкими, низкочастотными, а частотные значения, наоборот, могут указываться в конце статьи или игнорироваться. Для некоторых слов наиболее частотными вообще оказываются метафорические значения (бешенство, бред, брешь, веха). К счастью, дистрибутивные модели можно адаптировать для работы с несколькими значениями одного слова. Именно о такой адаптации и рассказывали Анастасия и Константин.

В работе с многозначными словам традиционно выделяют две задачи. Первая из них  — Word sense disambiguation, то есть снятие лексической неоднозначности, предполагает,наличие нескольких заранее известных значений у слова (например, полученных из словаря или WordNet). При решении такой задачи с помощью дистрибутивных моделей можно создать для разных значений обучающие корпуса с соответствующими контекстами, после чего обучить модели на них и получить вектора отдельных значений (например, лук-растение и лук-оружие).

Вторая задача — Word sense induction, то есть порождение значений слова, считается более сложной. Она предполагает автоматическое выделение разных значений многозначных слов, не заданных заранее. Для выделения значений применяются разные подходы: кластеризация контекстов самого слова, кластеризация контекстов близких слов, тематическое моделирование контекстов. Один из наиболее современных методов — AdaGram, адаптивная версия алгоритма skip-gram (одного из двух стандартных алгоритмов дистрибутивной семантики), позволяющая строить отдельные вектора для отдельных значений слова. Во время мастер-класса Анастасия и Константин рассказали о своей работе, где с помощью AdaGram выявлялись слова с регулярной полисемией, например, еда/животное (курица, рыба, птица), содержимое/контейнер (бутылка, тарелка, чашка), свойство поверхности/свойство характера (нежный, грубый). Это исследование было представлено на конференции ACL 2016 в Осаке.