• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

По вопросам, связанным с сайтом: portalhseling@gmail.com

Руководство

Руководитель Рахилина Екатерина Владимировна

Заместитель руководителя Ахапкина Яна Эмильевна

Книга
Введение в науку о языке

Кибрик А. Е., Федорова О. В., Татевосов С. Г. и др.

Буки Веди, 2019.

Глава в книге
Tense and Lax Body Parts in the Russian Deictic Gestures: The Case of Index Finger Pointing

Переверзева С. И.

In bk.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 29 мая — 1 июня 2019 г.). Iss. 18(25). 2019. P. 1-16.

Кто продал душу дьяволу: доклад об извлечении семантических ролей

6 февраля аспирант Илья Кузнецов рассказал о результатах своей работы по автоматическому выделению семантических ролей (semantic role labeling, SRL, semantic parsing). Суть этой задачи - найти участников некоторой ситуации, описываемой в тексте. Например, выделить из фразы «Фауст продал душу дьяволу» участников сделки – «продавца» Фауста, «покупателя» дьявола, «товар» (объект купли-продажи) душу. Саму ситуацию задает предикат «продал», а участники являются его актантами.

 

Автоматическое обнаружение и правильная идентификация таких актантов важны для машинного перевода, «умного» информационного поиска, вопросно-ответных приложений, извлечения информации и различных задач текстовой аналитики. На западе SRL-системы давно являются одним из hot topics компьютерной лингвистики, и для английского языка задача решена весьма неплохо. Однако для русского языка пока сделано очень мало – существует лишь две открытые системы, данные для обучения крайне скудны, открытых соревнований не проводится.

 

Докладчик сделал обзор существующих методов извлечения ролей и представил собственный подход, основанный на машинном обучении. Источником тренировочных данных стал лингвистический ресурс FrameBank – корпус конструкций с семантическими ролями, разрабатываемый при участии преподавателей школы лингвистики О.Н. ЛяшевскойЕ.В. РахилинойС.Ю. Толдовой и др.

 

Использованный в работе алгоритм приписывает каждому слову семантическую роль (или ее отсутствие) при определенном предикате, обучаясь на уже размеченных конструкциях FrameBank. При этом учитываются данные морфологического и синтаксического разборов. Набор лексико-синтаксических признаков, с опорой на которые извлекаются роли, включает часть речи, наличие предлога, залог предиката, путь в дереве зависимостей, а также «кластер» слова. Для получения последнего признака все слова были предварительно кластеризованы по семантической близости.

 

Результаты работы системы показывают, что наиболее весомый вклад в качество извлечения ролей вносят синтаксические признаки, такие как путь до предиката в дереве или тип предлога. Без них точность и полнота извлечения находятся в районе 40%, а с ними достигают 65-70%. В дальнейшем автор исследования надеется повысить показатели за счет совершенствования механизма объединения слов в семантические кластеры (с возможным использованием тезаурусов типа RuThes или WordNet), дополнительной обработки омонимии и введения «конкуренции» между семантическими ролями, т.е. учета уже извлеченных ролей как признака для (не)извлечения других.

Даниил Скоринкин,
аспирант Школы лингвистики