• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Митрополиты, мудрецы, переводчики в cредневековой Европе

Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.

М.: Издательский дом НИУ ВШЭ, 2024.

Глава в книге
Тест на распознавание книжных заголовков для младших школьников: пилотное исследование

Урывская Д. А., Староверова В. Н., Лопухина А. А. и др.

В кн.: Наука и образование: проблемы и перспективы [Электронный ресурс]: Материалы XXVI Международной научно-практической конференции молодых ученых и студентов, посвящённой 85-летию АГГПУ им. В. М. Шукшина (Бийск, 5 апреля 2024 г.). Бийск: АГГПУ им. В.М. Шукшина, 2024. С. 240-244.

Препринт
Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

Кто продал душу дьяволу: доклад об извлечении семантических ролей

6 февраля аспирант Илья Кузнецов рассказал о результатах своей работы по автоматическому выделению семантических ролей (semantic role labeling, SRL, semantic parsing). Суть этой задачи - найти участников некоторой ситуации, описываемой в тексте. Например, выделить из фразы «Фауст продал душу дьяволу» участников сделки – «продавца» Фауста, «покупателя» дьявола, «товар» (объект купли-продажи) душу. Саму ситуацию задает предикат «продал», а участники являются его актантами.

 

Автоматическое обнаружение и правильная идентификация таких актантов важны для машинного перевода, «умного» информационного поиска, вопросно-ответных приложений, извлечения информации и различных задач текстовой аналитики. На западе SRL-системы давно являются одним из hot topics компьютерной лингвистики, и для английского языка задача решена весьма неплохо. Однако для русского языка пока сделано очень мало – существует лишь две открытые системы, данные для обучения крайне скудны, открытых соревнований не проводится.

 

Докладчик сделал обзор существующих методов извлечения ролей и представил собственный подход, основанный на машинном обучении. Источником тренировочных данных стал лингвистический ресурс FrameBank – корпус конструкций с семантическими ролями, разрабатываемый при участии преподавателей школы лингвистики О.Н. ЛяшевскойЕ.В. РахилинойС.Ю. Толдовой и др.

 

Использованный в работе алгоритм приписывает каждому слову семантическую роль (или ее отсутствие) при определенном предикате, обучаясь на уже размеченных конструкциях FrameBank. При этом учитываются данные морфологического и синтаксического разборов. Набор лексико-синтаксических признаков, с опорой на которые извлекаются роли, включает часть речи, наличие предлога, залог предиката, путь в дереве зависимостей, а также «кластер» слова. Для получения последнего признака все слова были предварительно кластеризованы по семантической близости.

 

Результаты работы системы показывают, что наиболее весомый вклад в качество извлечения ролей вносят синтаксические признаки, такие как путь до предиката в дереве или тип предлога. Без них точность и полнота извлечения находятся в районе 40%, а с ними достигают 65-70%. В дальнейшем автор исследования надеется повысить показатели за счет совершенствования механизма объединения слов в семантические кластеры (с возможным использованием тезаурусов типа RuThes или WordNet), дополнительной обработки омонимии и введения «конкуренции» между семантическими ролями, т.е. учета уже извлеченных ролей как признака для (не)извлечения других.

Даниил Скоринкин,
аспирант Школы лингвистики