Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ

АБB
АБB
АБB

Обычная версия сайта

Описание проекта

Проект посвящен улучшению морфосинтаксической и фонетической разметки китайских текстов внутри Русско-китайского параллельного корпуса НКРЯ (ruzhcorp). Процесс улучшения включает следующие изменения:

разработка и применение новых эффективных алгоритмов для словоделения;
создание системы PoS-тэггинга (морфосинтаксической аннотации);
разработка и применение алгоритма для разрешения фонетической омонимии китайских слов (т.е. присвоение однозначной аннотации в системе пиньинь).

Все указанные выше алгоритмы помогут повысить точность запросов и улучшить качество результатов поиска. Это, в свою очередь, обеспечит более высокое качество исследований на основе Корпуса, а также позволит сделать интерфейс Корпуса еще более удобным справочным и образовательным ресурсом для изучающих русский и китайский как иностранный.

По состоянию на сентябрь 2021 года проект выполнил все поставленные задачи; дальнейшее развитие корпуса будет происходить в рамках других инициатив. Более подробную информацию о проекте можно найти на сайте Корпуса: http://ruzhcorp.ruscorpora.ru/ (русский, китайский, английский).
Здесь вы найдёте отчётную презентацию о нашем проекте:

Отчётная презентация (PDF, 162 Кб)

По состоянию на конец января 2021 года в рамках проекта:

участники проекта выступили с докладом на международной конференции Linguistics Colloquium (26–28 ноября 2020 г., онлайн). Тема доклада — "Automatic Chinese Word Segmentation in the Translated Texts: Case Study of the Russian-Chinese Parallel Corpus of RNC";
собраны подвыборки предложений, на которых будут дообучаться и тестироваться алгоритмы словоделения и пиньиневой аннотации;
поданы заявки на конференции Buckeye East Asian Linguistics (США/онлайн; тема — дообучение алгоритмов пиньиневой аннотации на данных Корпуса), Corpus Linguistics (Ирландия/онлайн; тема— сравнение дообученных алгоритмов словоделения на данных Корпуса), SlovKo (Словакия/онлайн; тема — представление пайплайна для обработки китайских текстов внутри Корпуса);
ведется работа над публикацией, посвященной сравнительному обзору стандартов китайского словоделения.

По состоянию на август 2021 года в рамках проекта:

участники проекта выступили с докладами на следующих конференциях:

◦ Buckeye East Asian Linguistics Forum (Огайо/онлайн; название доклада — Comparative analysis of grapheme-to-phoneme models for the Russian-Chinese parallel corpus);

◦ Международная конференция «Диалог» (Москва/онлайн; название доклада — Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг);

◦ Международная научная конференция «Корпусная лингвистика 2021» (Санкт-Петербург/онлайн, название публикации — Автоматическая разметка заимствований из русского языка в китайских текстах: проблемы словоделения и морфопарсинга);

◦ Corpus Linguistics International Conference “CL2021” (Лимерик/онлайн; название доклада — Enhancing Loanword Detection in the Chinese Texts via Code-Switching and Fine-Tuning: Case Study on the Russian-Chinese Parallel Corpus of RNC).

также запланировано выступление на следующих конференциях:

◦ ХХIV Международная научная конференция «Китай, китайская цивилизация и мир. История, современность, перспективы» (Москва/онлайн; название доклада — Лингвистическая разметка китайских текстов в Русско;китайском параллельном корпусе НКРЯ);

◦ 11th International Conference “Slovko 2021” (Братислава/онлайн; название доклада — Linguistic annotation of translated Chinese texts: Coordinating theory, algorithms and data).

Для дообучения и тестирования алгоритмов было сделано 3 датасета (набора данных) объемом по 850 предложений каждый для алгоритмов словоделения, и 1 датасет объемом 1350 предложений для алгоритмов аннотации пиньиня.
Выполнена ключевая задача — создан алгоритм более качественной разметки китайских текстов, нежели предыдущий.

◦ Алгоритм разметки китайских предложений вместе с документацией полностью доступен в репозитории.

◦ Документы корпуса были полностью переразмечены новым алгоритмом. Поиск по корпусу с новой разметкой доступен на сервере корпусов НИУ ВШЭ. Вскоре поиск по текстам с улучшенной разметкой станет доступен и на сайте Национального корпуса русского языка.

Участники проекта выступили с популярной лекцией о проведенном исследовании и применении его результатов в образовательных целях на конференции «Открытый диалог-11», проводимой Ассоциацией развития синологии; название доклада — «Лингвистическая разметка русско-китайского параллельного корпуса»: анонс, запись лекции).
Помимо обещанных результатов, участники корпуса провели дополнительные исследования в рамках нашей исследовательской области и изложили их в своих дипломных работах:

◦ Александра Коновалова, «Автоматический частеречный анализ для китайского языка с привлечением данных параллельного корпуса»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ;

◦ Армине Титизян, «Определение переключения кодов в текстах на китайском»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Прикладная математика и информатика» НИУ ВШЭ.

Участники проекта

Торилов Дмитрий Михайлович	Программная инженерия	Бакалавриат	4
Вольф Елена Александровна	Фундаментальная и компьютерная лингвистика	Бакалавриат	4
Пискунова Александра Олеговна	Цифровые методы в гуманитарных науках	Магистратура	1
Семенов Кирилл Игоревич	Фундаментальная и компьютерная лингвистика	Бакалавриат	Выпускник 2020 г.
Дурнева Софья Павловна	Лингвистическая теория и описание языка	Магистратура	1
Цветкова Алена Дмитриевна	Анализ данных в биологии и медицине	Магистратура	1
Коновалова Александра Сергеевна	Фундаментальная и компьютерная лингвистика	Бакалавриат	4
Короткова Юлия Олеговна	Фундаментальная и компьютерная лингвистика	Бакалавриат	2
Титизян Армине Кареновна	Прикладная математика и информатика	Бакалавриат	4