• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
Морфологический гессер как инструмент анализа полевых данных: опыт работы с науканским языком
В печати

Будянская Е. М., Бузанов А. О., Жорник Д. О. и др.

Томский журнал лингвистических и антропологических исследований. 2025. № 2 (48).

Глава в книге
Cases of morphosyntactic affinity in North-Eastern Siberia: borrowing, substrata, social settings' influence... or chance?
В печати

Kazakova T., Vinyar A., Бакланов А. Е. et al.

In bk.: Первый Евразийский конгресс лингвистов. Москва, 9–13 декабря 2024: Тезисы докладов. M.: 2025.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Кто продал душу дьяволу: доклад об извлечении семантических ролей

6 февраля аспирант Илья Кузнецов рассказал о результатах своей работы по автоматическому выделению семантических ролей (semantic role labeling, SRL, semantic parsing). Суть этой задачи - найти участников некоторой ситуации, описываемой в тексте. Например, выделить из фразы «Фауст продал душу дьяволу» участников сделки – «продавца» Фауста, «покупателя» дьявола, «товар» (объект купли-продажи) душу. Саму ситуацию задает предикат «продал», а участники являются его актантами.

 

Автоматическое обнаружение и правильная идентификация таких актантов важны для машинного перевода, «умного» информационного поиска, вопросно-ответных приложений, извлечения информации и различных задач текстовой аналитики. На западе SRL-системы давно являются одним из hot topics компьютерной лингвистики, и для английского языка задача решена весьма неплохо. Однако для русского языка пока сделано очень мало – существует лишь две открытые системы, данные для обучения крайне скудны, открытых соревнований не проводится.

 

Докладчик сделал обзор существующих методов извлечения ролей и представил собственный подход, основанный на машинном обучении. Источником тренировочных данных стал лингвистический ресурс FrameBank – корпус конструкций с семантическими ролями, разрабатываемый при участии преподавателей школы лингвистики О.Н. ЛяшевскойЕ.В. РахилинойС.Ю. Толдовой и др.

 

Использованный в работе алгоритм приписывает каждому слову семантическую роль (или ее отсутствие) при определенном предикате, обучаясь на уже размеченных конструкциях FrameBank. При этом учитываются данные морфологического и синтаксического разборов. Набор лексико-синтаксических признаков, с опорой на которые извлекаются роли, включает часть речи, наличие предлога, залог предиката, путь в дереве зависимостей, а также «кластер» слова. Для получения последнего признака все слова были предварительно кластеризованы по семантической близости.

 

Результаты работы системы показывают, что наиболее весомый вклад в качество извлечения ролей вносят синтаксические признаки, такие как путь до предиката в дереве или тип предлога. Без них точность и полнота извлечения находятся в районе 40%, а с ними достигают 65-70%. В дальнейшем автор исследования надеется повысить показатели за счет совершенствования механизма объединения слов в семантические кластеры (с возможным использованием тезаурусов типа RuThes или WordNet), дополнительной обработки омонимии и введения «конкуренции» между семантическими ролями, т.е. учета уже извлеченных ролей как признака для (не)извлечения других.

Даниил Скоринкин,
аспирант Школы лингвистики