Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Максим Олегович Бажуков, Константин Евгеньевич Сатдаров
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Земичева С. С., Мороз Г. А., Наккарато М. К.
Вопросы языкознания. 2025. № 6. С. 7-34.
В кн.: Парад цифровых гуманитарных проектов. Красноярск: Сибирский федеральный университет, 2025. С. 34-40.
arxiv.org. Computer Science. Cornell University, 2024
С 10 по 12 ноября студенты второго курса магистратуры школы лингвистики Анастасия Романова, Михаил Нефедов, Алена Феногенова и Оксана Дереза участвовали в международной конференции AINL FRUCT, проходившей в Санкт-Петербурге. Конференция была посвящена различным темам, связанным с современными интеллектуальными технологиями: анализом социальных сетей, речевыми технологиями, человеко-машинным взаимодействием, машинным обучением, автоматическим анализом и классификацией текстов. Наиболее популярным инструментом для решения задач были нейронные сети, о которых на конференции очень много и активно говорилось, проводились тюториалы, а участники делились своими наработками и знаниями этого метода.
До самой конференции мы с Мишей участвовали в соревновании по определению парафраза для русского языка. Всем участникам было предложено два типа заданий: классификация на два класса (парафраз — непарафраз) и на три класса (парафраз - частичный парафраз - непарафраз). Были доступны два прогона: «стандартный», в котором система могла обучаться только на предоставленном организаторами корпусе, и «нестандартный», в котором можно было использовать любые другие данные. Так как прогоны оценивались отдельно, то в общей сложности было представлено четыре задания, в двух из которых мы одержали победу. Всех участников дорожки пригласили на конференцию для выступления на семинаре, посвященном автоматическому определению парафраза для русского языка.
В рамках данного семинара команды делились своими методами, инструментами и алгоритмами. Многих заинтересовало наше комплексное решение, в связи с чем мы получили большое количество дополнительных вопросов. С некоторыми участниками мы даже обменялись контактами для дальнейшего обсуждения текущей задачи, а также для совместной работы над другими.
Этим летом я проходила практику от НИУ ВШЭ на предприятии НИИ КВАНТ. Сотрудничество получилось более чем плодотворным — мы разработали метод автоматического извлечения англицизмов в Интернете. Ведь в сетевых текстах огромное количество нестандартной лексики (сленг, жаргоны, англицизмы, неологизмы), которое комплексными системами (такими как морфологические, сентимент и синтаксический анализаторы) очень сложно обрабатывать. Необходим подход к лексической обработке, нормализации сетевых текстов, например, извлечению из них неологизмов. В работе мы исследовали англицизмы, разработали метод их автоматического нахождения, использовали технологии глубокого/глубинного обучения для данной задачи.
Тема конференции AINL очень удачно совпала с темой нашего метода, в результате чего нашу статью взяли, и мне удалось выступить и поделиться с научным сообществом нашей наработкой.
В целом, AINL оставил отличные впечатления, было множество сильных и интересных докладов, прекрасные люди, а Санкт-Петербург порадовал снежной, даже рождественской атмосферой.
Я участвовала в постерной сессии AINL, где было представлено семь работ на самые разнообразные темы: от автоматического извлечения корня слова до построения сети героев из произведений художественной литературы. Каждому участнику давалось по две минуты на краткую презентацию своей работы, после чего все желающие могли посмотреть постеры и задать их авторам вопросы. Этот блок был совмещен с фуршетом, так что дискуссии получились очень оживленными и доброжелательными. Мне удалось пообщаться как с коллегами из питерской Вышки, так и с московскими лингвистами.
Я рассказывала о своем лемматизаторе для древнеирландского языка, написанном в рамках прошлогодней курсовой работы. Древнеирландская орфография крайне вариативна, поэтому задача предсказания лемм для несловарных форм близка к спеллчекингу, и моя работа была в основном посвящена созданию алгоритма для отождествления несловарных форм со словарными на основе расстояния Дамерау-Левенштейна.
В постерной секции также участвовала студентка I курса школы лингвистики Татьяна Шаврина с демо-презентацией новых функций ГИКРЯ.