• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
Number in the World's Languages
В печати

Под редакцией: P. Acquaviva, M. Daniel.

Berlin: De Gruyter Mouton, 2021.

Статья
Online and offline effects of transcranial alternating current stimulation of the primary motor cortex

Pozdniakov I., Vorobyova A., Galli G. et al.

Scientific Reports. 2021. Vol. 11. No. 1. P. 1-10.

Глава в книге
Person in Morphology

Daniel M.

In bk.: The Oxford Encyclopedia of Morphology. Oxford: Oxford University Press, 2021. Ch. 9. P. 91-133.

Препринт
Three -En In Northern Khanty: 2sg Possessive, Salient, And Anaphoric Articles

Stepan K. Mikhailov.

Linguistics. WP BRP. НИУ ВШЭ, 2020. No. 101.

Цифровой архив: создание корпуса журнала «Отечественные записки» — первые результаты

Студентки проектной группы Евгения Заковоротная, Екатерина Волошина, Юлия Ким и Полина Кудрявцева описали концепцию своего проекта, а также рассказали о первых результатах, которых удалось достичь с сентября по декабрь.

Цифровой архив: создание корпуса журнала «Отечественные записки» — первые результаты

Наша проектная группа разрабатывает цифровое издание литературного журнала XIX века «Отечественные записки». Хотя данный литературный журнал является значимым для понимания русской культурной и общественной жизни XIX века, его выпуски нельзя найти онлайн в адекватной машиночитаемой форме. В Интернете встречаются либо нераспознанные изображения, либо разрозненные PDF-документы с текстовым слоем неприемлемого качества. 

Таким образом, корпус текстов журнала с учетом старой и новой орфографии в машиночитаемой форме позволит проводить корпусные исторические, лингвистические, филологические и междисциплинарные исследования. Более того, вычитка текста и удаление опечаток, возникающих при OCR-распознавании томов журнала, занимает много сил и времени. Поэтому, кроме полнотекстового поиска, на сайте цифрового архива будет доступна возможность онлайн-редактирования текстов журнала через удобный фреймворк. Возможно, в дальнейшей работе будут придуманы и добавлены новые инструменты.


С сентября по декабрь удалось выполнить следующие пункты:

  • вычитаны полностью около пяти томов;
  • усовершенствован алгоритм автоматической теговой (XML/TEI) разметки;
  • обучена модель спеллчекера (программа для автоматического исправления опечаток в тексте) на вычитанных томах журнала «Отечественные записки». Дообучение модели и корректировку алгоритма проводит Екатерина Волошина. Первичная структура и принципы работы спеллчекера взяты из проекта выпускницы НИУ ВШЭ Марины Митрофановой с ее согласия;
  • создана тестовая версия базы данных. В процессе работы студентки Евгения Заковоротная, Екатерина Волошина, Юлия Ким и Полина Кудрявцева протестировали разные виды СУБД: SQL, NoSQL, а также базы данных для хранения XML/TEI файлов. На данный момент в проекте используется NoSQL база данных.
  • создана тестовая версия сайта с подключением к базе данных. Пока доступны только четыре тома;
  • на сайт добавлен тестовый редакторский фреймворк, однако функция сохранения изменений пока не подключена;
  • проведены обсуждения особенностей работы над редактированием журнала, разработкой базы-данных и сайта. Во встречах принимали участие преподаватели Даниил Скоринкин, Эдуард Клышинский и Сергей Собко и студенты из основного состава проектной группы.

Изначально данный проект разрабатывался в рамках учебной программы «Цифровые методы в гуманитарных науках», идея принадлежит преподавателям НИУ ВШЭ Герману Пальчикову и Даниилу Скоринкину. Также, активное участие принимала студентка 2-ого курса магистратуры Татьяна Колпакова, работая над созданием методов автоматического удаления опечаток в вычитке томов и TEI разметки томов. Сейчас наша проектная группа включает студентов бакалавриата и магистратуры. Помимо основного состава в проекте также участвуют студенты, которые записываются в нашу команду через «Ярмарку проектов». Координацией студентов занимается Полина Кудрявцева.

Несмотря на первые результаты, уже сейчас понятна важность цифрового архива не только для самого журнала, но и в целом для классической русской периодики. Цифровое издание «Отечественных записок» позволит не только сохранить столь значимый для культуры объект, но и станет «полем» для исследователей, позволив находить новые знания.