Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.
In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.
arxiv.org. Computer Science. Cornell University, 2024
Весной на платформе компьютерных проектов Школы лингвистики был размещен «Персидский поэтический корпус».
«Для начала следует рассказать о том, как родилась идея этого проекта. Есть особый род корпусов – поэтические корпуса. Oни стали появляться в середине 2000-х годов; и примерно в это время В. А. Плунгян и Д. В. Сичинава создали поэтический подкорпус в составе Национального корпуса русского языка, который стал одним из первых подобных корпусов в мире. Он представляет собой не просто архив поэтических текстов: его основное преимущество состоит в том, что все тексты, представленные в корпусе, размечены на уровне стиха, то есть с точки зрения того, каким метром они написаны; предусмотрена и возможность искать по рифме.
Необходимо отметить, что в Чехии довольно сильная школа изучения стиха. Например, там создана теория (ее автор — чешский лингвист Petr Plecháč), согласно которой статистическая методика определения рифмы независима от конкретного языка. Что значит: «независима от языка»? Это значит, что одна и та же методика определения рифмы оказывается справедливой как для чешского, так и для русского, английского и немецкого языков.
Мне, как человеку заинтересованному восточной литературой, хотелось привлечь внимание к изучению персидского языка. Так возникла идея создания «Персидского поэтического корпуса».
Но идея по разным причинам оказалась сложной для воплощения. Для начала нужно было собрать тексты. Это было наименьшей из проблем, потому что существуют сайты, на которых можно найти оцифрованные тексты, есть даже ресурсы, позволяющие искать персидские тексты по формам аруза (формам персидского стихосложения). В моем распоряжении было некоторое количество текстов, которые требовали предварительной обработки, но так как я не знаю персидского, одному мне было справиться тяжело.
В прошлом году по программе стажировок НИУ ВШЭ к нам приехала студентка — Динара Степина, которая по счастливому совпадению владеет персидским языком. С её помощью мне удалось доработать имеющиеся тексты. Кроме того, нас интересовала возможность добавления в корпус метра и рифмы. Во время работы мы пришли к выводу, что не сможем самостоятельно разметить все тексты (сложность заключается в консонантном письме, которое не позволяет даже простым способом посчитать слоги), но тогда у нас появилась идея обучить разметке нейросети. Это пока только в планах.
'Персидская литература' |
Еще одна трудность в разработке корпуса – разметка рифмы. Из-за отсутствия гласных в персидском языке размечать рифмы оказывается гораздо сложнее, чем в русском. Кроме того, нам показалось, что было бы здорово иметь возможность обогащения персидского корпуса при помощи таджикского: то есть в персидском корпусе выдавать кириллическую транслитерацию текстов, а в таджикском – представлять персидскую метрику. Сейчас мы ведем активные переговоры с создателем таджикского корпуса Арсением Выдриным и надеемся, что у нас получится продуктивное сотрудничество.
Таким образом, получился корпус с очень сложной разработкой и удивительными перспективами. Весной я только мечтал о том, чтобы вышкинские востоковеды-иранисты включились в его разработку, но теперь это уже реальность: группа очень квалифицированных студентов под руководством Е. Е. Арманд помогает исправлять морфологию и расширять метрическую разметку.
Очень важно сказать о том, что «Персидский поэтический корпус» размещен на платформе Tsakorpus, разработчиком которой является Тимофей Александрович Архангельский. Следует заметить, что до настоящего времени на этой платформе не было ни одного языка с правоналевным письмом, поэтому когда «Персидский поэтический корпус» работал в тестовом режиме, все тексты в нем отображались зеркально. Разработчик очень быстро исправил эту ситуацию, добавив на платформу возможность поддержки правоналевного письма.
Это замечательный пример того, как вместе с созданием новых языковых корпусов происходит доработка той платформы, на которой они функционируют».
Мы же отметим, что корпус включает в себя тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (16 842 произведения, 330 723 бейта). Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов уже размечена метрически.
Поздравляем Бориса Валерьевича и желаем ему дальнейших успехов!
Фотография на заставке: персидский ковер ручной работы — Борису Валерьевичу от Школы лингвистики