• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Статья
Язык Л. Н. Толстого: корпусный подход и интроспекция

Орехов Б. В.

Труды института русского языка им. В.В. Виноградова. 2024. № 1. С. 67-73.

Глава в книге
Languages examined or referred to in the present book

Creissels D., Zúñiga F., Moroz G.

In bk.: Applicative Constructions in the World's Languages. Berlin: De Gruyter Mouton, 2024. P. 61-73.

Препринт
Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

Кто продал душу дьяволу: доклад об извлечении семантических ролей

6 февраля аспирант Илья Кузнецов рассказал о результатах своей работы по автоматическому выделению семантических ролей (semantic role labeling, SRL, semantic parsing). Суть этой задачи - найти участников некоторой ситуации, описываемой в тексте. Например, выделить из фразы «Фауст продал душу дьяволу» участников сделки – «продавца» Фауста, «покупателя» дьявола, «товар» (объект купли-продажи) душу. Саму ситуацию задает предикат «продал», а участники являются его актантами.

 

Автоматическое обнаружение и правильная идентификация таких актантов важны для машинного перевода, «умного» информационного поиска, вопросно-ответных приложений, извлечения информации и различных задач текстовой аналитики. На западе SRL-системы давно являются одним из hot topics компьютерной лингвистики, и для английского языка задача решена весьма неплохо. Однако для русского языка пока сделано очень мало – существует лишь две открытые системы, данные для обучения крайне скудны, открытых соревнований не проводится.

 

Докладчик сделал обзор существующих методов извлечения ролей и представил собственный подход, основанный на машинном обучении. Источником тренировочных данных стал лингвистический ресурс FrameBank – корпус конструкций с семантическими ролями, разрабатываемый при участии преподавателей школы лингвистики О.Н. ЛяшевскойЕ.В. РахилинойС.Ю. Толдовой и др.

 

Использованный в работе алгоритм приписывает каждому слову семантическую роль (или ее отсутствие) при определенном предикате, обучаясь на уже размеченных конструкциях FrameBank. При этом учитываются данные морфологического и синтаксического разборов. Набор лексико-синтаксических признаков, с опорой на которые извлекаются роли, включает часть речи, наличие предлога, залог предиката, путь в дереве зависимостей, а также «кластер» слова. Для получения последнего признака все слова были предварительно кластеризованы по семантической близости.

 

Результаты работы системы показывают, что наиболее весомый вклад в качество извлечения ролей вносят синтаксические признаки, такие как путь до предиката в дереве или тип предлога. Без них точность и полнота извлечения находятся в районе 40%, а с ними достигают 65-70%. В дальнейшем автор исследования надеется повысить показатели за счет совершенствования механизма объединения слов в семантические кластеры (с возможным использованием тезаурусов типа RuThes или WordNet), дополнительной обработки омонимии и введения «конкуренции» между семантическими ролями, т.е. учета уже извлеченных ролей как признака для (не)извлечения других.

Даниил Скоринкин,
аспирант Школы лингвистики