Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова и Кирилл Алексеевич Аксенов
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Тутова Е. В., Корнакова Е. С.
ИП Алонцева Н.В., 2021.
Arutiunian V., Lopukhina A., Minnigulova A. et al.
Journal of Autism and Developmental Disorders. 2021. P. 1-16.
В кн.: Межкультурное пространство: лингвистический и дидактический аспекты. Часть 1. Пленарное заседание и секция «Межкультурная дидактика». Т. 1. Петрозаводск: Издательство ПетрГУ, 2021. С. 20-29.
Linguistics. WP BRP. НИУ ВШЭ, 2020. No. 101.
Участники проекта «Компьютерные и лингвистические ресурсы для поддержки шугнанского языка», поддержанного НИУ ВШЭ в 2020–21 г., запустили сайт, посвящённый шугнанскому языку, и шугнанский корпус.
Шугнанский язык принадлежит к восточноиранской группе иранских языков (индоевропейская языковая семья). Распространённый на востоке Таджикистана и на северо-востоке Афганистана, он является не просто языком шугнанцев, но и lingua franca памирских народов. По оценке Д. И. Эдельман, число носителей шугнанского – около 100 000 человек. На протяжении нескольких лет сотрудники Школы лингвистики проводили экспедиции на Памир для изучения шугнанского языка, однако в условиях пандемии внимание было сосредоточено на обработке уже имеющихся данных.
Памирские таджики и их многочисленные языки и диалекты, в силу своей вековой изолированности и обособленности, сохранили многие архаичные черты, и поэтому языковые, фольклорные и этнографические данные представляют большой научный интерес не только для иранистики, но также и для индоевропеистики, а в ряде случаев могут пролить свет на решение сложных и спорных вопросов исторического и этногенетического характера.
Первое упоминание о шугнанском языке и письменности на этом языке мы находим в записках китайского путешественника и монаха Сюана Цзана, который во второй четверти VII в. проходил через Ваханскую долину в Китай. Вот что он пишет: «письменность такая же, как в стране Духоло (т. е. в Тохаристане), а язык имеет отличия».
Тохир Каландаров
Институт этнологии и антропологии им. Н. Н. Миклухо-Маклая Российской академии наук
В 2020 г. участники проекта вычитали и разметили электронную версию самого большого словаря шугнанского языка, составленного Д. Карамшоевым. Выполнение этой трудной, но важной задачи позволило создать Telegram-бот и онлайн-словарь шугнанского языка (разработчик – Юрий Макаров), благодаря которым все желающие могут прикоснуться к памирской культуре.
На сайте проекта также доступны инструменты обработки шугнанских текстов — конвертер орфографий и морфологический анализатор.
До 1937 г. на Памире, как пишут лингвисты А. Л. Грюнберг и И. М. Стеблин-Каменский, в школах использовалась нововведенная шугнанская письменность, однако в этом печально известном году она была отменена и ликвидирована.
Тохир Каландаров
Институт этнологии и антропологии им. Н. Н. Миклухо-Маклая Российской академии наук
Конвертер позволяет перевести большое количество текстов, записанных в разных шугнанских орфографиях, в принятую проектом латиницу. Это помогает унифицировать корпус текстов, в которых многие фонемы шугнанского языка зачастую передаются на письме по-разному.
Анализатор, используя электронную версию словаря Карамшоева, ищет в нём соответствия с токенами текста, а потом пытается подобрать подходящие аффиксы и клитики, обрамляющие найденный корень, в отдельном словаре морфем. На выходе пользователь получает морфемный разбор токенов текста: все слова, которые удалось разобрать, представляются в виде цепочек морфем (цепочек может быть несколько, если анализатор нашёл больше одной интерпретации). Сейчас идёт работа над системой «отсеивания» некорректных цепочек морфем. В будущем планируется добавление новых функций — например, выдачи значений сложных глаголов при их нахождении в тексте.
Разработкой обоих инструментов занимался Максим Меленченко, в создании анализатора помогали Фаина Даниэль и Юрий Макаров.
Пока шла разработка морфологического анализатора, конвертера орфографий и электронной версии шугнанского словаря, Александр Сергиенко искал новые шугнанские тексты.
А.Сергиенко:
Эта задача лишь кажется простой, ведь шугнанский язык часто называют бесписьменным. Нельзя просто так ввести в строке поиска «шугнанские книги» и сразу их скачать. Немногочисленные печатные издания на шугнанском доходили до нас окольными путями — с жёстких дисков шугнанских писателей, с которыми мы встречались в Хороге и Душанбе, от информантов, у которых были оцифрованные детские книги на шугнанском, из прошлых проектов ВШЭ.
![]() |
Читальные залы Центра восточной литературы РГБ |
В общем, в компьютерном проекте остаётся место и такой библиотечной романтике, раз уж экспедиционной романтики в этом году не получается.
В этом месяце также запущена начальная версия шугнанского корпуса.
Дмитрий Новокшанов, разработчик корпуса:
Корпус функционирует на базе платформы tsakorpus, созданной Т. А. Архангельским, и находится в стадии разработки. В настоящий момент устно-письменный он содержит четыре текста (три из которых представляют собой устные рассказы носителя), размеченные в ходе экспедиции в г. Хорог, общим объёмом в 1269 словоупотреблений.
Формат устного корпуса предполагает, что, помимо обычной работы с письменными текстами, исследователь может прослушивать их чтение носителями. Они были преобразованы из формата .eaf в .json с помощью встроенного в корпусную платформу конвертера. Тексты пока обладают только базовой метаразметкой: название текста, дата записи, автор и жанр/тип текста. Поиск по грамматическим значениям может быть осуществлен как по глоссам, так и по основным грамматическим категориям, которые приписываются отдельным словоупотреблениям. Несмотря на то, что работа над корпусом ещё не закончена, каждый желающий уже может получить базовое представление о шугнанском языке, а также послушать его носителей.
В планах – пополнение корпуса новыми текстами, унификация глосс, работа над распознаванием грамматических тегов и расширением метаданных.
Наконец, в ближайшее время запланирован выпуск русско-шугнанского и англо-шугнанского разговорника (автор – А. Сергиенко).
Следить за развитием проекта можно на странице https://ling.hse.ru/shughni, а также на сайте http://karamshoev.pythonanywhere.com/.