• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ

Описание проекта

Проект посвящен улучшению морфосинтаксической и фонетической разметки китайских текстов внутри Русско-китайского параллельного корпуса НКРЯ (ruzhcorp). Процесс улучшения включает следующие изменения:

  • разработка и применение новых эффективных алгоритмов для словоделения;
  • создание системы PoS-тэггинга (морфосинтаксической аннотации); 
  • разработка и применение алгоритма для разрешения фонетической омонимии китайских слов (т.е. присвоение однозначной аннотации в системе пиньинь).

Все указанные выше алгоритмы помогут повысить точность запросов и улучшить качество результатов поиска. Это, в свою очередь, обеспечит более высокое качество исследований на основе Корпуса, а также позволит сделать интерфейс Корпуса еще более удобным справочным и образовательным ресурсом для изучающих русский и китайский как иностранный.

По состоянию на сентябрь 2021 года проект выполнил все поставленные задачи; дальнейшее развитие корпуса будет происходить в рамках других инициатив. Более подробную информацию о проекте можно найти на сайте Корпуса: http://ruzhcorp.ruscorpora.ru/  (русский, китайский, английский).
Здесь вы найдёте отчётную презентацию о нашем проекте: 

Отчётная презентация (PDF, 162 Кб) 




По состоянию на конец января 2021 года в рамках проекта:

  • участники проекта выступили с докладом на международной конференции Linguistics Colloquium (26–28 ноября 2020 г., онлайн). Тема доклада — "Automatic Chinese Word Segmentation in the Translated Texts: Case Study of the Russian-Chinese Parallel Corpus of RNC";
  • собраны подвыборки предложений, на которых будут дообучаться и тестироваться алгоритмы словоделения и пиньиневой аннотации;
  • поданы заявки на конференции Buckeye East Asian Linguistics (США/онлайн; тема — дообучение алгоритмов пиньиневой аннотации на данных Корпуса), Corpus Linguistics (Ирландия/онлайн; тема— сравнение дообученных алгоритмов словоделения на данных Корпуса), SlovKo (Словакия/онлайн; тема — представление пайплайна для обработки китайских текстов внутри Корпуса);
  • ведется работа над публикацией, посвященной сравнительному обзору стандартов китайского словоделения.

По состоянию на август 2021 года в рамках проекта:

  • участники проекта выступили с докладами на следующих конференциях:

      Buckeye East Asian Linguistics Forum (Огайо/онлайн; название доклада — Comparative analysis of grapheme-to-phoneme models for the Russian-Chinese parallel corpus);

      Международная конференция «Диалог» (Москва/онлайн; название доклада — Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг);

      Международная научная конференция «Корпусная лингвистика 2021» (Санкт-Петербург/онлайн, название публикации — Автоматическая разметка заимствований из русского языка в китайских текстах: проблемы словоделения и морфопарсинга);

      Corpus Linguistics International Conference “CL2021” (Лимерик/онлайн; название доклада — Enhancing Loanword Detection in the Chinese Texts via Code-Switching and Fine-Tuning: Case Study on the Russian-Chinese Parallel Corpus of RNC).

  • также запланировано выступление на следующих конференциях:

      ХХIV Международная научная конференция «Китай, китайская цивилизация и мир. История, современность, перспективы» (Москва/онлайн; название доклада — Лингвистическая разметка китайских текстов в Русско;китайском параллельном корпусе НКРЯ);

      11th International Conference “Slovko 2021” (Братислава/онлайн; название доклада — Linguistic annotation of translated Chinese texts: Coordinating theory, algorithms and data).

  • Для дообучения и тестирования алгоритмов было сделано 3 датасета (набора данных) объемом по 850 предложений каждый для алгоритмов словоделения, и 1 датасет объемом 1350 предложений для алгоритмов аннотации пиньиня. 
  • Выполнена ключевая задача — создан алгоритм более качественной разметки китайских текстов, нежели предыдущий.

      Алгоритм разметки китайских предложений вместе с документацией полностью доступен в репозитории.

      Документы корпуса были полностью переразмечены новым алгоритмом. Поиск по корпусу с новой разметкой доступен на сервере корпусов НИУ ВШЭ. Вскоре поиск по текстам с улучшенной разметкой станет доступен и на сайте Национального корпуса русского языка

  • Участники проекта выступили с популярной лекцией о проведенном исследовании и применении его результатов в образовательных целях на конференции «Открытый диалог-11», проводимой Ассоциацией развития синологии; название доклада — «Лингвистическая разметка русско-китайского параллельного корпуса»: анонсзапись лекции).
  • Помимо обещанных результатов, участники корпуса провели дополнительные исследования в рамках нашей исследовательской области и изложили их в своих дипломных работах: 

      Александра Коновалова, «Автоматический частеречный анализ для китайского языка с привлечением данных параллельного корпуса»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ;

      Армине Титизян, «Определение переключения кодов в текстах на китайском»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Прикладная математика и информатика» НИУ ВШЭ.

 

Участники проекта

Торилов Дмитрий Михайлович

Программная инженерия

Бакалавриат

4

Вольф Елена Александровна

Фундаментальная и компьютерная лингвистика

Бакалавриат

4

Пискунова Александра Олеговна

Цифровые методы в гуманитарных науках

Магистратура

1

Семенов Кирилл Игоревич

Фундаментальная и компьютерная лингвистика

Бакалавриат

Выпускник 2020 г.

Дурнева Софья Павловна

Лингвистическая теория и описание языка

Магистратура

1

Цветкова Алена Дмитриевна

Анализ данных в биологии и медицине

Магистратура

1

Коновалова Александра Сергеевна

Фундаментальная и компьютерная лингвистика

Бакалавриат

4

Короткова Юлия Олеговна

Фундаментальная и компьютерная лингвистика

Бакалавриат

2

Титизян Армине Кареновна

Прикладная математика и информатика

Бакалавриат

4