Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Вестник Российской академии наук. 2024. Т. 94. № 9. С. 787-794.
Pozdnyakov V., Makarov I., Maksim Kazadaev.
In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.
arxiv.org. Computer Science. Cornell University, 2024
Участники проекта «Компьютерные и лингвистические ресурсы для поддержки шугнанского языка», поддержанного НИУ ВШЭ в 2020–21 г., запустили сайт, посвящённый шугнанскому языку, и шугнанский корпус.
Шугнанский язык принадлежит к восточноиранской группе иранских языков (индоевропейская языковая семья). Распространённый на востоке Таджикистана и на северо-востоке Афганистана, он является не просто языком шугнанцев, но и lingua franca памирских народов. По оценке Д. И. Эдельман, число носителей шугнанского – около 100 000 человек. На протяжении нескольких лет сотрудники Школы лингвистики проводили экспедиции на Памир для изучения шугнанского языка, однако в условиях пандемии внимание было сосредоточено на обработке уже имеющихся данных.
Памирские таджики и их многочисленные языки и диалекты, в силу своей вековой изолированности и обособленности, сохранили многие архаичные черты, и поэтому языковые, фольклорные и этнографические данные представляют большой научный интерес не только для иранистики, но также и для индоевропеистики, а в ряде случаев могут пролить свет на решение сложных и спорных вопросов исторического и этногенетического характера.
Первое упоминание о шугнанском языке и письменности на этом языке мы находим в записках китайского путешественника и монаха Сюана Цзана, который во второй четверти VII в. проходил через Ваханскую долину в Китай. Вот что он пишет: «письменность такая же, как в стране Духоло (т. е. в Тохаристане), а язык имеет отличия».
Тохир Каландаров
Институт этнологии и антропологии им. Н. Н. Миклухо-Маклая Российской академии наук
В 2020 г. участники проекта вычитали и разметили электронную версию самого большого словаря шугнанского языка, составленного Д. Карамшоевым. Выполнение этой трудной, но важной задачи позволило создать Telegram-бот и онлайн-словарь шугнанского языка (разработчик – Юрий Макаров), благодаря которым все желающие могут прикоснуться к памирской культуре.
На сайте проекта также доступны инструменты обработки шугнанских текстов — конвертер орфографий и морфологический анализатор.
До 1937 г. на Памире, как пишут лингвисты А. Л. Грюнберг и И. М. Стеблин-Каменский, в школах использовалась нововведенная шугнанская письменность, однако в этом печально известном году она была отменена и ликвидирована.
Тохир Каландаров
Институт этнологии и антропологии им. Н. Н. Миклухо-Маклая Российской академии наук
Конвертер позволяет перевести большое количество текстов, записанных в разных шугнанских орфографиях, в принятую проектом латиницу. Это помогает унифицировать корпус текстов, в которых многие фонемы шугнанского языка зачастую передаются на письме по-разному.
Анализатор, используя электронную версию словаря Карамшоева, ищет в нём соответствия с токенами текста, а потом пытается подобрать подходящие аффиксы и клитики, обрамляющие найденный корень, в отдельном словаре морфем. На выходе пользователь получает морфемный разбор токенов текста: все слова, которые удалось разобрать, представляются в виде цепочек морфем (цепочек может быть несколько, если анализатор нашёл больше одной интерпретации). Сейчас идёт работа над системой «отсеивания» некорректных цепочек морфем. В будущем планируется добавление новых функций — например, выдачи значений сложных глаголов при их нахождении в тексте.
Разработкой обоих инструментов занимался Максим Меленченко, в создании анализатора помогали Фаина Даниэль и Юрий Макаров.
Пока шла разработка морфологического анализатора, конвертера орфографий и электронной версии шугнанского словаря, Александр Сергиенко искал новые шугнанские тексты.
А.Сергиенко:
Эта задача лишь кажется простой, ведь шугнанский язык часто называют бесписьменным. Нельзя просто так ввести в строке поиска «шугнанские книги» и сразу их скачать. Немногочисленные печатные издания на шугнанском доходили до нас окольными путями — с жёстких дисков шугнанских писателей, с которыми мы встречались в Хороге и Душанбе, от информантов, у которых были оцифрованные детские книги на шугнанском, из прошлых проектов ВШЭ.
Читальные залы Центра восточной литературы РГБ |
В общем, в компьютерном проекте остаётся место и такой библиотечной романтике, раз уж экспедиционной романтики в этом году не получается.
В этом месяце также запущена начальная версия шугнанского корпуса.
Дмитрий Новокшанов, разработчик корпуса:
Корпус функционирует на базе платформы tsakorpus, созданной Т. А. Архангельским, и находится в стадии разработки. В настоящий момент устно-письменный он содержит четыре текста (три из которых представляют собой устные рассказы носителя), размеченные в ходе экспедиции в г. Хорог, общим объёмом в 1269 словоупотреблений.
Формат устного корпуса предполагает, что, помимо обычной работы с письменными текстами, исследователь может прослушивать их чтение носителями. Они были преобразованы из формата .eaf в .json с помощью встроенного в корпусную платформу конвертера. Тексты пока обладают только базовой метаразметкой: название текста, дата записи, автор и жанр/тип текста. Поиск по грамматическим значениям может быть осуществлен как по глоссам, так и по основным грамматическим категориям, которые приписываются отдельным словоупотреблениям. Несмотря на то, что работа над корпусом ещё не закончена, каждый желающий уже может получить базовое представление о шугнанском языке, а также послушать его носителей.
В планах – пополнение корпуса новыми текстами, унификация глосс, работа над распознаванием грамматических тегов и расширением метаданных.
Наконец, в ближайшее время запланирован выпуск русско-шугнанского и англо-шугнанского разговорника (автор – А. Сергиенко).
Следить за развитием проекта можно на странице https://ling.hse.ru/shughni, а также на сайте http://karamshoev.pythonanywhere.com/.