• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Глава в книге
Automated Metaphor Identification in Russian and Its Implications for Metaphor Studies
В печати

Badryzlova Y., Lyashevskaya O., Nikiforova A.

In bk.: Distributed Computing and Artificial Intelligence, Volume 2: Special Sessions 18th International Conference (Lecture Notes in Networks and Systems 332). Vol. 2. Springer, 2021. Ch. 8. P. 86-96.

Препринт
Effort versus performance tradeoff in lemmatisation for Uralic languages

Tyers F. M., Bibaeva M.

Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages. 2020.iwclul-1.2. Association for Computational Linguistics, 2020

Treebank

       На сегодняшний день лингвистические исследования немыслимы без тех возможностей, которые представляет современная корпусная лингвистика. Корпуса текстов с разметкой высокого качества позволяют получить более достоверные результаты лингвистических исследований, а также могут быть полноценно использованы в задачах автоматической обработки текста более высокого уровня.

      Разметка высокого качества для корпуса может быть получена несколькими способами - ручной разметкой всего корпуса, разметкой корпуса машиннообученным парсером (который в свою очередь также обучался на корпусе с качественной разметкой), либо разметкой корпуса правиловым парсером. Все три способа являются достаточно трудозатратными, как как на том или ином этапе требуют вовлечения большого количества экспертов.

Проект “Treebank” - это проект по созданию универсального алгоритма автоматического поиска и исправления ошибок синтаксического парсинга, выполненного в рамках грамматики зависимостей. Алгоритм способен обрабатывать разметку любого парсера, работающего с грамматикой зависимостей. Материалом для исследования является синтаксический корпус RusTreebank, размеченный  синтаксическим анализатором SyntAutom.

Мы используем небольшой Золотой стандарт этого корпуса и параллельную ему разметку парсера для извлечения выведенных нами на основании анализа ошибок разметки признаков зависимостной связи и обучения на них модели парсера, которая ищет неверную разметку в остальном корпусе. На данный момент алгоритм работает с 0.87 точности и 0.81 полноты для обнаружения ошибок разметки.

Обучая модель, мы всегда проверяли, что признаки, которые использует алгоритм машинного обучения, релевантны и с лингвистической точки зрения:


На графике в числе наиболее значимых признаков, использованных классификатором - длина предложения и расстояние от главного слова до зависимого (1-2, 4 признаки), что соответствует данным, которые можно получить, анализируя наиболее частые случаи ошибок синтаксических парсеров.

Мы также проверяли, какая комбинация и какое количество признаков дает наилучшие результаты:

       На графиках отображено изменение полноты и точности обнаружения ошибок разметки в зависимости от количества использованных для классификации признаков. Как видно, чем большим количеством признаков описаны объекты выборки, тем выше и точность, и полнота классификации.

DSC_3991.JPG

Исходный код проекта, реализованный на Python с использованием библиотеки Scikit-learn, находится в открытом доступе и свободен для скачивания (https://github.com/hmyr/Treebank).

Научным руководителем проекта является С.Ю.Толдова