• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
История стиховедения и формализм

Орехов Б. В.

Слово.ру: балтийский акцент. 2024. Т. 15. № 4. С. 147-157.

Глава в книге
The Parallel Corpus of Russian and Ruska Romani Languages

Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.

In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Новый поэтический корпус Бориса Орехова

Весной на платформе компьютерных проектов Школы лингвистики был размещен «Персидский поэтический корпус», который включает в себя тексты классической персидской поэзии IX-XVII веков. Об истории корпуса, его разработке и совершенствовании рассказывает создатель, доцент Школы и сотрудник Центра цифровых гуманитарных исследований НИУ ВШЭ Борис Орехов.

Image by hoomarg from Pixabay

Image by hoomarg from Pixabay
Free

Весной на платформе компьютерных проектов Школы лингвистики был размещен «Персидский поэтический корпус».  


Рассказывает создатель корпуса, доцент Школы лингвистики и сотрудник Центра цифровых гуманитарных исследований НИУ ВШЭ Борис Орехов:

Рождение идеи

«Для начала следует рассказать о том, как родилась идея этого проекта. Есть особый род корпусов – поэтические корпуса. Oни стали появляться в середине 2000-х годов; и примерно в это время В. А. Плунгян и Д. В. Сичинава создали поэтический подкорпус в составе Национального корпуса русского языка,  который стал одним из первых подобных корпусов в мире. Он  представляет собой не просто архив поэтических текстов: его основное преимущество состоит в том, что все тексты, представленные в корпусе, размечены на уровне стиха, то есть с точки зрения того, каким метром они написаны; предусмотрена и возможность искать по рифме. 


Начиная с 2012 года (с развитием цифровых методов лингвистических исследований)  стали появляться поэтические корпуса и для других языков. В том же году я создал «Башкирский поэтический корпус», и примерно в этот же период времени в Чехии появился «Корпус чешского стиха». 

Необходимо отметить, что в Чехии довольно сильная школа изучения стиха. Например, там создана теория (ее автор — чешский лингвист Petr Plecháč), согласно которой статистическая методика определения рифмы независима от конкретного языка. Что значит:  «независима от языка»? Это значит, что одна и та же методика определения рифмы оказывается справедливой как для чешского, так и для русского, английского и немецкого языков.

Мне, как человеку заинтересованному восточной литературой, хотелось привлечь внимание к изучению персидского языка. Так возникла идея создания «Персидского поэтического корпуса».  

Этапы работы и перспективы 

Но идея по разным причинам оказалась сложной для воплощения. Для начала нужно было собрать тексты. Это было наименьшей из проблем, потому что существуют сайты, на которых можно найти оцифрованные тексты, есть даже ресурсы,  позволяющие искать персидские тексты по формам аруза (формам персидского стихосложения). В моем распоряжении было некоторое количество текстов, которые требовали предварительной обработки, но так как я не знаю персидского, одному мне было справиться тяжело.  

В прошлом году по программе стажировок НИУ ВШЭ к нам приехала студентка —  Динара Степина, которая по счастливому совпадению владеет персидским языком. С её помощью мне удалось доработать имеющиеся тексты. Кроме того, нас интересовала возможность добавления в корпус метра и рифмы. Во время работы мы пришли к выводу, что не сможем самостоятельно разметить все тексты (сложность заключается в консонантном письме, которое не позволяет даже простым способом посчитать слоги), но тогда у нас появилась идея обучить разметке нейросети. Это пока только в планах. 

'Персидская литература'

Еще одна трудность в разработке корпуса – разметка рифмы. Из-за отсутствия гласных в персидском языке размечать рифмы оказывается гораздо сложнее, чем в русском. Кроме того, нам показалось, что было бы здорово иметь возможность обогащения персидского корпуса при помощи таджикского: то есть в персидском корпусе выдавать кириллическую транслитерацию текстов, а в таджикском – представлять персидскую метрику. Сейчас мы ведем активные переговоры с создателем таджикского корпуса Арсением Выдриным и надеемся, что у нас получится продуктивное сотрудничество.

Таким образом, получился корпус с очень сложной разработкой и удивительными перспективами. Весной я только мечтал о том, чтобы вышкинские востоковеды-иранисты включились в его разработку, но теперь это уже реальность: группа очень квалифицированных студентов под руководством Е. Е. Арманд помогает исправлять морфологию и расширять метрическую разметку.

Как корпус помог усовершенствовать платформу 

Очень важно сказать о том, что «Персидский поэтический корпус» размещен на платформе Tsakorpus, разработчиком которой является Тимофей Александрович Архангельский. Следует заметить, что до настоящего времени на этой платформе не было ни одного языка с правоналевным письмом, поэтому когда «Персидский поэтический корпус» работал в тестовом режиме, все тексты в нем отображались зеркально.  Разработчик очень быстро исправил эту ситуацию, добавив на платформу возможность поддержки правоналевного письма.  

Это замечательный пример того, как вместе с созданием новых языковых корпусов происходит доработка той платформы, на которой они функционируют».

Мы же отметим, что корпус включает в себя тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (16 842 произведения, 330 723 бейта). Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов уже размечена метрически.

Поздравляем Бориса Валерьевича и желаем ему дальнейших успехов!

Фотография на заставке: персидский ковер ручной работы — Борису Валерьевичу от Школы лингвистики