Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.
М.: Издательский дом НИУ ВШЭ, 2024.
Вопросы языкознания. 2024. № 2. С. 159-164.
В кн.: Клычевские чтения - 2024. Материалы международной научной конференции: труды конференции. Карачаевск: Издательство Карачаево-Черкесского государственного университета имени У.Д. Алиева, 2024.
Chistyakova K., Kazakova Tatiana.
Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.
Школа лингвистики факультета гуманитарных наук НИУ ВШЭ сегодня известна как место, где хорошо делают
1. Собственно лингвистов (на соответствующих программах бакалавриата и магистратуры)
2. Лингвистические исследования
Однако есть и еще один важный результат деятельности школы — компьютерные инструменты и ресурсы для исследований. И хотя часть разработок пока остается продуктом «внутреннего пользования», есть успешные примеры распространения наших технологий.
Один из таких примеров — программный пакет lingtypology, созданный и поддерживаемый преподавателем школы Георгием Морозом. Lingtypology соединяет информацию о языках из базы Glottolog с возможностями популярной JavaScript-библиотеки для создания интерактивных карт leaflet, позволяя заниматься лингвистическим картографированием. С lingtypology легко отобразить на карте распространение языковых семей и групп, показать границы тех или иных лингвистических явлений, создать интерактивную лингвистическую или лингвосоциологическую карту.
В этом году lingtypology прошёл жесткую процедуру рецензирования и стал частью rOpenSci — набора открытых программ для научных исследований, написанных на языке R. Число скачиваний пакета превышает пять тысяч, что для узкоспециализированного научного инструмента является хорошим результатом. Мы узнали у Георгия Алексеевича, как он создавал lingtypology, почему важно «поменять мышление» при разработке научных программ и чем полезны разгромные рецензии.
В школе лингвистики мы делаем действительно много всего, но это часто заканчивается ровно в тот момент, когда кто-то выкладывает свой скрипт на Github. Во-первых, никто об этом не узнает, во-вторых, не сможет повторить и будет делать то же самое с нуля. Поэтому важно доделать продукт до готового модуля, пакета, библиотеки.
В результате всей этой работы значительно больше людей может узнать о том, что ты сделал, и, что еще важнее, дать тебе какой-то совет. Для меня это крайне важно, потому что я не программист и не компьютерный лингвист, многое я доучиваю в процессе.
В какой-то момент я начал писать пакет, который был нужен для работы с картами. До этого мы пользовались очень тяжелым инструментом. Его можно было давать студентам, но каждый раз рассказывать, как им пользоваться, было очень сложно. Я понял, что объяснять это студентам каждый год не готов, и летом 2016 года начал разработку.
За год пакет развился до хорошего состояния, интерфейс был не раз продуман и передуман, по совету разных людей было добавлено много улучшений. А еще за год заметно поменялось моё мышление. Я понял, что создать пакет — это принципиально лучше, чем просто опубликовать какой-то программный код, даже если вы сопроводили его комментариями, инструкциями и написали статью. Потому что любой код быстро ломается — постоянно развиваются операционные системы, изменяются те библиотеки, от которых он зависит и т.д. Поэтому мой призыв здесь — мыслить чуть более глобально, какой «локальной» ни казалась бы задача.
Есть хорошие лингвистические решения, например, по распознаванию речи, которые, к сожалению, оформлены как миллион отдельных скриптов. Их нужно запустить в правильной последовательности, и если все правильно, то случится магия. Это мучение. Делая пакет, вы много раз подумаете, что стоит туда включать, и постараетесь сделать его установку максимально простой. Больше и вероятность того, что вы попытаетесь сделать ваш продукт кросс-платформенным, работающим на разных операционных системах и т.д. То есть вы чуть больше подумаете о людях, которые будут этим пользоваться.
Сначала lingtypology нужно было опубликовать в CRAN — общем репозитории для всех пакетов на языке R. Это не так просто (например, по сравнению с публикацией модуля для Python), поскольку там есть много разных формальных требований. Но зато твой пакет пытаются собрать на всех возможных системах и машинах — разных разрядностей и т.п. Уже там люди начали мне писать и предлагать улучшения.
За первый месяц после размещения было 107 откликов. Потом я написал в лингвистическую рассылку Linguist list и получил еще один всплеск отзывов. Люди писали и говорили: «о, здорово, но еще хотелось бы это», и я добавлял возможность, или «ой, классно, только мне совсем не нравится это», и я исправлял ошибку. Так было с жестовыми языками: их координаты были неверными, и коллега-лингвист просто прислал мне список верных координат.
Лингвисты присылали отклики, но потом им надоело — и я подумал про rOpenSci. Не все о них слышали, но это сообщество сейчас набирает обороты. Их цель — собирать программные пакеты для научных исследований. У них есть некоторый алгоритм принятия пакета, пройдя который, разработчик понимает очень много всего. В отличие от CRAN, здесь требования не только формально-технические.
Период рецензии в rOpenSci достаточно долгий. Мне назначили двух рецензентов, один из них отреагировал быстро, а другой думал очень долго и написал очень длинное, подробное и разгромное ревью. Каким было мое первое ощущение? Я очень грустил. Но потом я стал смотреть, какие кусочки этого ревью можно использовать. Потому что когда пишут, что «этот пакет никому не нужен, потому что не делает А, B, С», — это может быть отличным поводом реализовать А, B или С. И я действительно многое сделал по их следам. Я исправлял около месяца и верю, что пакет в результате стал лучше. В итоге меня взяли. Теперь в rOpenSci есть группа, которая занимается моим пакетом. Я в нее, конечно, тоже включен. После этого был новый всплеск скачиваний.