Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Вопросы языкознания. 2025.
Pozdnyakov V., Makarov I., Maksim Kazadaev.
In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.
arxiv.org. Computer Science. Cornell University, 2024
Исследование было проведено с помощью двух лингвистических инструментов, разработанных самим докладчиком, — лингвистического пакета lingtypology и API для национального корпуса польского языка (НКПЯ). Первый из них позволяет создавать типологические карты, второй - передавать запросы в польский корпус и анализировать полученные результаты в языке R.
С помощью API были получены примеры употребления для 116 польских городов с указанием грамматических характеристик, в том числе падежа. Далее эти данные были преобразованы в таблицу и проанализированы с помощью стандартных средств языка R.
Визуализация результатов с помощью гистаграмм распределения падежей и метода главных компонент показала несколько примечательных фактов. Во-первых, падежи делятся на те, которые чаще имеют маленькую долю (винительны, дательный, творительный, звательный), и на те, которые чаще имеют долю в промежутке между 0.2 и 0.6 (родительный, именительны, местный).
Как отметил докладчик, это распределение выглядит объяснимо, если учесть, что в польском языке латив и элатив маркируется предлогами do и z, управляющими родительным падежом, а эссив маркируется предлогом w, управляющий местным падежом. Во-вторых, города не делятся по распределению падежей на явно выраженные кластеры, т.е. нельзя, например, поделить города на те, что употреблялись бы заметно чаще в местном падеже ([жить] в Варшаве) и те, что тяготеют к родительному ([ехать] до/з Варшавы).
Скорее на графике главных компонент можно увидеть ядро с наиболее типичным распределением и несколько небольших периферийных групп.
Интерактивная карта (ее можно увидеть здесь) показывает, что эти “периферийные” города не являются периферией географически. Однако географическая интерпретация данных все же возможна: так, у участников научного семинара возникло предположение (нуждающееся в дальнейшей проверке) о корреляции распределения падежей с экономическим и культурным развитием городов.
Подробнее об исследовании можно прочитать здесь.