• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

По вопросам, связанным с сайтом: portalhseling@gmail.com

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. Т. XV.

Под науч. редакцией: Д. Ф. Мищенко, Д. В. Герасимов, Н. М. Заика и др.

Т. 15: Материалы Четырнадцатой конференции по типологии и грамматике для молодых исследователей (2017 г.). Ч. 2. СПб.: ИЛИ РАН, 2019.

Глава в книге
Double-Blind Peer-Reviewing and Inclusiveness in Russian NLP Conferences

Kutuzov A. B., Никишина И. А.

In bk.: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected Papers. Cham: Springer, 2019. P. 3-8.

Препринт
Length Of Constituent As A Relevant Factor In Russian Syntax

Letuchiy A.

Linguistics. WP BRP. НИУ ВШЭ, 2019. No. WP BRP 88/LNG/2019.

Кто продал душу дьяволу: доклад об извлечении семантических ролей

6 февраля аспирант Илья Кузнецов рассказал о результатах своей работы по автоматическому выделению семантических ролей (semantic role labeling, SRL, semantic parsing). Суть этой задачи - найти участников некоторой ситуации, описываемой в тексте. Например, выделить из фразы «Фауст продал душу дьяволу» участников сделки – «продавца» Фауста, «покупателя» дьявола, «товар» (объект купли-продажи) душу. Саму ситуацию задает предикат «продал», а участники являются его актантами.

 

Автоматическое обнаружение и правильная идентификация таких актантов важны для машинного перевода, «умного» информационного поиска, вопросно-ответных приложений, извлечения информации и различных задач текстовой аналитики. На западе SRL-системы давно являются одним из hot topics компьютерной лингвистики, и для английского языка задача решена весьма неплохо. Однако для русского языка пока сделано очень мало – существует лишь две открытые системы, данные для обучения крайне скудны, открытых соревнований не проводится.

 

Докладчик сделал обзор существующих методов извлечения ролей и представил собственный подход, основанный на машинном обучении. Источником тренировочных данных стал лингвистический ресурс FrameBank – корпус конструкций с семантическими ролями, разрабатываемый при участии преподавателей школы лингвистики О.Н. ЛяшевскойЕ.В. РахилинойС.Ю. Толдовой и др.

 

Использованный в работе алгоритм приписывает каждому слову семантическую роль (или ее отсутствие) при определенном предикате, обучаясь на уже размеченных конструкциях FrameBank. При этом учитываются данные морфологического и синтаксического разборов. Набор лексико-синтаксических признаков, с опорой на которые извлекаются роли, включает часть речи, наличие предлога, залог предиката, путь в дереве зависимостей, а также «кластер» слова. Для получения последнего признака все слова были предварительно кластеризованы по семантической близости.

 

Результаты работы системы показывают, что наиболее весомый вклад в качество извлечения ролей вносят синтаксические признаки, такие как путь до предиката в дереве или тип предлога. Без них точность и полнота извлечения находятся в районе 40%, а с ними достигают 65-70%. В дальнейшем автор исследования надеется повысить показатели за счет совершенствования механизма объединения слов в семантические кластеры (с возможным использованием тезаурусов типа RuThes или WordNet), дополнительной обработки омонимии и введения «конкуренции» между семантическими ролями, т.е. учета уже извлеченных ролей как признака для (не)извлечения других.

Даниил Скоринкин,
аспирант Школы лингвистики