• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Школа лингвистики: Менеджер Дьячкова Анна Евгеньевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков

Статья
The interplay of conceptual metaphors and evaluation in press reports on the AUKUS agreement.

Trnavac R., Katie Patterson J.

Russian Journal of Linguistics. 2025. Vol. 3. P. 560-585.

Глава в книге
Digital Humanities and Literary Realism

Skorinkin D., Orekhov B.

In bk.: The Oxford Handbook of Global Realisms. Oxford: Oxford University Press, 2025. Ch. 10. P. 177-204.

Препринт
You shall know a piece by the company it keeps. Chess plays as a data for word2vec models

Orekhov B.

arxiv.org. Computer Science. Cornell University, 2024

Курица не птица: мастер-класс по снятию лексической неоднозначности

Слушатели магистерской программы «Компьютерная лингвистика» узнали о современных методах автоматического разделения и выявления значений многозначных слов.

Очередной мастер-класс для студентов магистерской программы «Компьютерная лингвистика» провели научный сотрудник лаборатории нейролингвистики НИУ ВШЭ Анастасия Лопухина и разработчик компании ScrapingHub Константин Лопухин. Занятие было посвящено применению дистрибутивных семантических моделей для автоматического определения значения многозначных слов.

Дистрибутивная семантика опирается на идею о том, что значения слов определяется теми контекстами, в которых они употребляются («You shall know a word by the company it keeps»). Для слов, у которых есть одно выраженное значение, такие модели действительно работают хорошо: лампа в них оказывается очень близкой к светильнику, помидор к огурцу и т.д. Однако многозначные слова и омонимы создают трудности: ведь если лук в части текстов сочетается со словами овощ, есть, продукты, хлеб, а в части — со словами стрелы, натягивать, стрелять, арбалет, то дистрибутивный семантический вектор получится смешанным, далеким и от оружия, и от еды.

Автоматически разделить значения непросто, но нужно. Во-первых, без этого трудно применять многие другие средства компьютерного анализа текста, во-вторых, эти данные востребованы лингвистами, в-третьих, они нужны лексикографам, чтобы понять, какие значение в каком порядке стоит указывать в словарях. Последний момент особенно важен, т.к. с анализ показывает, что значения, указанные первыми в словаре, иногда оказываются очень редкими, низкочастотными, а частотные значения, наоборот, могут указываться в конце статьи или игнорироваться. Для некоторых слов наиболее частотными вообще оказываются метафорические значения (бешенство, бред, брешь, веха). К счастью, дистрибутивные модели можно адаптировать для работы с несколькими значениями одного слова. Именно о такой адаптации и рассказывали Анастасия и Константин.

В работе с многозначными словам традиционно выделяют две задачи. Первая из них  — Word sense disambiguation, то есть снятие лексической неоднозначности, предполагает,наличие нескольких заранее известных значений у слова (например, полученных из словаря или WordNet). При решении такой задачи с помощью дистрибутивных моделей можно создать для разных значений обучающие корпуса с соответствующими контекстами, после чего обучить модели на них и получить вектора отдельных значений (например, лук-растение и лук-оружие).

Вторая задача — Word sense induction, то есть порождение значений слова, считается более сложной. Она предполагает автоматическое выделение разных значений многозначных слов, не заданных заранее. Для выделения значений применяются разные подходы: кластеризация контекстов самого слова, кластеризация контекстов близких слов, тематическое моделирование контекстов. Один из наиболее современных методов — AdaGram, адаптивная версия алгоритма skip-gram (одного из двух стандартных алгоритмов дистрибутивной семантики), позволяющая строить отдельные вектора для отдельных значений слова. Во время мастер-класса Анастасия и Константин рассказали о своей работе, где с помощью AdaGram выявлялись слова с регулярной полисемией, например, еда/животное (курица, рыба, птица), содержимое/контейнер (бутылка, тарелка, чашка), свойство поверхности/свойство характера (нежный, грубый). Это исследование было представлено на конференции ACL 2016 в Осаке.