• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Глава в книге
Семантическое пространство названий профессий и особенности его языкового отражения

Фуфаева И. В., Згировская О. Г.

В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус. Екатеринбург: Кабинетный ученый, 2024. Гл. 5.3.. С. 259-272.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Treebank

       На сегодняшний день лингвистические исследования немыслимы без тех возможностей, которые представляет современная корпусная лингвистика. Корпуса текстов с разметкой высокого качества позволяют получить более достоверные результаты лингвистических исследований, а также могут быть полноценно использованы в задачах автоматической обработки текста более высокого уровня.

      Разметка высокого качества для корпуса может быть получена несколькими способами - ручной разметкой всего корпуса, разметкой корпуса машиннообученным парсером (который в свою очередь также обучался на корпусе с качественной разметкой), либо разметкой корпуса правиловым парсером. Все три способа являются достаточно трудозатратными, как как на том или ином этапе требуют вовлечения большого количества экспертов.

Проект “Treebank” - это проект по созданию универсального алгоритма автоматического поиска и исправления ошибок синтаксического парсинга, выполненного в рамках грамматики зависимостей. Алгоритм способен обрабатывать разметку любого парсера, работающего с грамматикой зависимостей. Материалом для исследования является синтаксический корпус RusTreebank, размеченный  синтаксическим анализатором SyntAutom.

Мы используем небольшой Золотой стандарт этого корпуса и параллельную ему разметку парсера для извлечения выведенных нами на основании анализа ошибок разметки признаков зависимостной связи и обучения на них модели парсера, которая ищет неверную разметку в остальном корпусе. На данный момент алгоритм работает с 0.87 точности и 0.81 полноты для обнаружения ошибок разметки.

Обучая модель, мы всегда проверяли, что признаки, которые использует алгоритм машинного обучения, релевантны и с лингвистической точки зрения:


На графике в числе наиболее значимых признаков, использованных классификатором - длина предложения и расстояние от главного слова до зависимого (1-2, 4 признаки), что соответствует данным, которые можно получить, анализируя наиболее частые случаи ошибок синтаксических парсеров.

Мы также проверяли, какая комбинация и какое количество признаков дает наилучшие результаты:

       На графиках отображено изменение полноты и точности обнаружения ошибок разметки в зависимости от количества использованных для классификации признаков. Как видно, чем большим количеством признаков описаны объекты выборки, тем выше и точность, и полнота классификации.

DSC_3991.JPG

Исходный код проекта, реализованный на Python с использованием библиотеки Scikit-learn, находится в открытом доступе и свободен для скачивания (https://github.com/hmyr/Treebank).

Научным руководителем проекта является С.Ю.Толдова