• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
DREAM Technical Report for the Alexa Prize 4

Baymurzina D., Kuznetsov D., Evseev D. et al.

Alexa Prize Proceedings, 2021.

Статья
Over-specification of small cardinalities in reference production
В печати

Zevakhina N., Pasalskaya E., Chinkova A.

Frontiers in Psychology. 2021.

Глава в книге
Автоматическая лингвистическая разметка китайских текстов, содержащих заимствования: словоделение, транскрипция, PoS-тэггинг

Коновалова А. С., Вольф Е. А., Семенов К. И. и др.

В кн.: Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2021). Вып. 20. М.: РГГУ, 2021. С. 1081-1094.

Препринт
Effort versus performance tradeoff in lemmatisation for Uralic languages

Tyers F. M., Bibaeva M.

Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages. 2020.iwclul-1.2. Association for Computational Linguistics, 2020

Цифровой архив: создание корпуса журнала «Отечественные записки» — первые результаты

Студентки проектной группы Евгения Заковоротная, Екатерина Волошина, Юлия Ким и Полина Кудрявцева описали концепцию своего проекта, а также рассказали о первых результатах, которых удалось достичь с сентября по декабрь.

Цифровой архив: создание корпуса журнала «Отечественные записки» — первые результаты

Наша проектная группа разрабатывает цифровое издание литературного журнала XIX века «Отечественные записки». Хотя данный литературный журнал является значимым для понимания русской культурной и общественной жизни XIX века, его выпуски нельзя найти онлайн в адекватной машиночитаемой форме. В Интернете встречаются либо нераспознанные изображения, либо разрозненные PDF-документы с текстовым слоем неприемлемого качества. 

Таким образом, корпус текстов журнала с учетом старой и новой орфографии в машиночитаемой форме позволит проводить корпусные исторические, лингвистические, филологические и междисциплинарные исследования. Более того, вычитка текста и удаление опечаток, возникающих при OCR-распознавании томов журнала, занимает много сил и времени. Поэтому, кроме полнотекстового поиска, на сайте цифрового архива будет доступна возможность онлайн-редактирования текстов журнала через удобный фреймворк. Возможно, в дальнейшей работе будут придуманы и добавлены новые инструменты.


С сентября по декабрь удалось выполнить следующие пункты:

  • вычитаны полностью около пяти томов;
  • усовершенствован алгоритм автоматической теговой (XML/TEI) разметки;
  • обучена модель спеллчекера (программа для автоматического исправления опечаток в тексте) на вычитанных томах журнала «Отечественные записки». Дообучение модели и корректировку алгоритма проводит Екатерина Волошина. Первичная структура и принципы работы спеллчекера взяты из проекта выпускницы НИУ ВШЭ Марины Митрофановой с ее согласия;
  • создана тестовая версия базы данных. В процессе работы студентки Евгения Заковоротная, Екатерина Волошина, Юлия Ким и Полина Кудрявцева протестировали разные виды СУБД: SQL, NoSQL, а также базы данных для хранения XML/TEI файлов. На данный момент в проекте используется NoSQL база данных.
  • создана тестовая версия сайта с подключением к базе данных. Пока доступны только четыре тома;
  • на сайт добавлен тестовый редакторский фреймворк, однако функция сохранения изменений пока не подключена;
  • проведены обсуждения особенностей работы над редактированием журнала, разработкой базы-данных и сайта. Во встречах принимали участие преподаватели Даниил Скоринкин, Эдуард Клышинский и Сергей Собко и студенты из основного состава проектной группы.

Изначально данный проект разрабатывался в рамках учебной программы «Цифровые методы в гуманитарных науках», идея принадлежит преподавателям НИУ ВШЭ Герману Пальчикову и Даниилу Скоринкину. Также, активное участие принимала студентка 2-ого курса магистратуры Татьяна Колпакова, работая над созданием методов автоматического удаления опечаток в вычитке томов и TEI разметки томов. Сейчас наша проектная группа включает студентов бакалавриата и магистратуры. Помимо основного состава в проекте также участвуют студенты, которые записываются в нашу команду через «Ярмарку проектов». Координацией студентов занимается Полина Кудрявцева.

Несмотря на первые результаты, уже сейчас понятна важность цифрового архива не только для самого журнала, но и в целом для классической русской периодики. Цифровое издание «Отечественных записок» позволит не только сохранить столь значимый для культуры объект, но и станет «полем» для исследователей, позволив находить новые знания.