Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Описание проекта
Проект посвящен улучшению морфосинтаксической и фонетической разметки китайских текстов внутри Русско-китайского параллельного корпуса НКРЯ (ruzhcorp). Процесс улучшения включает следующие изменения:
Все указанные выше алгоритмы помогут повысить точность запросов и улучшить качество результатов поиска. Это, в свою очередь, обеспечит более высокое качество исследований на основе Корпуса, а также позволит сделать интерфейс Корпуса еще более удобным справочным и образовательным ресурсом для изучающих русский и китайский как иностранный.
По состоянию на сентябрь 2021 года проект выполнил все поставленные задачи; дальнейшее развитие корпуса будет происходить в рамках других инициатив. Более подробную информацию о проекте можно найти на сайте Корпуса: http://ruzhcorp.ruscorpora.ru/ (русский, китайский, английский).
Здесь вы найдёте отчётную презентацию о нашем проекте:
Отчётная презентация (PDF, 162 Кб)
По состоянию на конец января 2021 года в рамках проекта:
По состоянию на август 2021 года в рамках проекта:
◦ Buckeye East Asian Linguistics Forum (Огайо/онлайн; название доклада — Comparative analysis of grapheme-to-phoneme models for the Russian-Chinese parallel corpus);
◦ Международная конференция «Диалог» (Москва/онлайн; название доклада — Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг);
◦ Международная научная конференция «Корпусная лингвистика 2021» (Санкт-Петербург/онлайн, название публикации — Автоматическая разметка заимствований из русского языка в китайских текстах: проблемы словоделения и морфопарсинга);
◦ Corpus Linguistics International Conference “CL2021” (Лимерик/онлайн; название доклада — Enhancing Loanword Detection in the Chinese Texts via Code-Switching and Fine-Tuning: Case Study on the Russian-Chinese Parallel Corpus of RNC).
◦ ХХIV Международная научная конференция «Китай, китайская цивилизация и мир. История, современность, перспективы» (Москва/онлайн; название доклада — Лингвистическая разметка китайских текстов в Русско;китайском параллельном корпусе НКРЯ);
◦ 11th International Conference “Slovko 2021” (Братислава/онлайн; название доклада — Linguistic annotation of translated Chinese texts: Coordinating theory, algorithms and data).
◦ Алгоритм разметки китайских предложений вместе с документацией полностью доступен в репозитории.
◦ Документы корпуса были полностью переразмечены новым алгоритмом. Поиск по корпусу с новой разметкой доступен на сервере корпусов НИУ ВШЭ. Вскоре поиск по текстам с улучшенной разметкой станет доступен и на сайте Национального корпуса русского языка.
◦ Александра Коновалова, «Автоматический частеречный анализ для китайского языка с привлечением данных параллельного корпуса»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ;
◦ Армине Титизян, «Определение переключения кодов в текстах на китайском»: Выпускная квалификационная работа студента 4 курса бакалавриата образовательной программы «Прикладная математика и информатика» НИУ ВШЭ.
Участники проекта
Торилов Дмитрий Михайлович |
Программная инженерия |
Бакалавриат |
4 |
Вольф Елена Александровна |
Фундаментальная и компьютерная лингвистика |
Бакалавриат |
4 |
Пискунова Александра Олеговна |
Цифровые методы в гуманитарных науках |
Магистратура |
1 |
Семенов Кирилл Игоревич |
Фундаментальная и компьютерная лингвистика |
Бакалавриат |
Выпускник 2020 г. |
Дурнева Софья Павловна |
Лингвистическая теория и описание языка |
Магистратура |
1 |
Цветкова Алена Дмитриевна |
Анализ данных в биологии и медицине |
Магистратура |
1 |
Коновалова Александра Сергеевна |
Фундаментальная и компьютерная лингвистика |
Бакалавриат |
4 |
Короткова Юлия Олеговна |
Фундаментальная и компьютерная лингвистика |
Бакалавриат |
2 |
Титизян Армине Кареновна |
Прикладная математика и информатика |
Бакалавриат |
4 |