• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ

Цель проекта — улучшение морфосинтаксической и фонетической разметки китайских текстов внутри Русско-китайского параллельного корпуса НКРЯ (ruzhcorp). Процесс улучшения включает следующие изменения:

  • разработка и применение новых эффективных алгоритмов для словоделения;
  • создание системы PoS-тэггинга; 
  • разработка и применение алгоритма для разрешения фонетической омонимии китайских слов (т.е. присвоение однозначной аннотации в системе пиньинь).

Все описанные алгоритмы помогут повысить точность запросов и улучшить качество результатов поиска. Это, в свою очередь, обеспечит более высокое качество исследований на основе Корпуса, а также позволит сделать интерфейс Корпуса еще более удобным справочным и образовательным ресурсом для изучающих русский и китайский как иностранный.

По состоянию на конец января 2021 года в рамках проекта:

  • участники проекта выступили с докладом на международной конференции Linguistics Colloquium (26–28 ноября 2020 г., онлайн). Тема доклада — "Automatic Chinese Word Segmentation in the Translated Texts: Case Study of the Russian-Chinese Parallel Corpus of RNC";
  • собраны подвыборки предложений, на которых будут дообучаться и тестироваться алгоритмы словоделения и пиньиневой аннотации;
  • поданы заявки на конференции Buckeye East Asian Linguistics (США/онлайн; тема — дообучение алгоритмов пиньиневой аннотации на данных Корпуса), Corpus Linguistics (Ирландия/онлайн; тема— сравнение дообученных алгоритмов словоделения на данных Корпуса), SlovKo (Словакия/онлайн; тема — представление пайплайна для обработки китайских текстов внутри Корпуса);
  • ведется работа над публикацией, посвященной сравнительному обзору стандартов китайского словоделения.

Более подробную информацию о проекте можно найти на сайте Корпусаhttps://ruzhcorp.github.io/ (русский, китайский).

 

Участники проекта

Торилов Дмитрий Михайлович

Программная инженерия

Бакалавриат

4

Вольф Елена Александровна

Фундаментальная и компьютерная лингвистика

Бакалавриат

4

Пискунова Александра Олеговна

Цифровые методы в гуманитарных науках

Магистратура

1

Семенов Кирилл Игоревич

Фундаментальная и компьютерная лингвистика

Бакалавриат

Выпускник 2020 г.

Дурнева Софья Павловна

Лингвистическая теория и описание языка

Магистратура

1

Цветкова Алена Дмитриевна

Анализ данных в биологии и медицине

Магистратура

1

Коновалова Александра Сергеевна

Фундаментальная и компьютерная лингвистика

Бакалавриат

4

Короткова Юлия Олеговна

Фундаментальная и компьютерная лингвистика

Бакалавриат

2

Титизян Армине Кареновна

Прикладная математика и информатика

Бакалавриат

4