Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Русская литература. 2024. № 2. С. 217-226.
Afanasev I., Lyashevskaya O.
In bk.: Structuring Lexical Data and Digitising Dictionaries: Grammatical Theory, Language Processing and Databases in Historical Linguistics. Leiden; Boston: Brill, 2024. P. 13-35.
arxiv.org. Computer Science. Cornell University, 2024
С 10 по 12 ноября студенты второго курса магистратуры школы лингвистики Анастасия Романова, Михаил Нефедов, Алена Феногенова и Оксана Дереза участвовали в международной конференции AINL FRUCT, проходившей в Санкт-Петербурге. Конференция была посвящена различным темам, связанным с современными интеллектуальными технологиями: анализом социальных сетей, речевыми технологиями, человеко-машинным взаимодействием, машинным обучением, автоматическим анализом и классификацией текстов. Наиболее популярным инструментом для решения задач были нейронные сети, о которых на конференции очень много и активно говорилось, проводились тюториалы, а участники делились своими наработками и знаниями этого метода.
До самой конференции мы с Мишей участвовали в соревновании по определению парафраза для русского языка. Всем участникам было предложено два типа заданий: классификация на два класса (парафраз — непарафраз) и на три класса (парафраз - частичный парафраз - непарафраз). Были доступны два прогона: «стандартный», в котором система могла обучаться только на предоставленном организаторами корпусе, и «нестандартный», в котором можно было использовать любые другие данные. Так как прогоны оценивались отдельно, то в общей сложности было представлено четыре задания, в двух из которых мы одержали победу. Всех участников дорожки пригласили на конференцию для выступления на семинаре, посвященном автоматическому определению парафраза для русского языка.
В рамках данного семинара команды делились своими методами, инструментами и алгоритмами. Многих заинтересовало наше комплексное решение, в связи с чем мы получили большое количество дополнительных вопросов. С некоторыми участниками мы даже обменялись контактами для дальнейшего обсуждения текущей задачи, а также для совместной работы над другими.
Этим летом я проходила практику от НИУ ВШЭ на предприятии НИИ КВАНТ. Сотрудничество получилось более чем плодотворным — мы разработали метод автоматического извлечения англицизмов в Интернете. Ведь в сетевых текстах огромное количество нестандартной лексики (сленг, жаргоны, англицизмы, неологизмы), которое комплексными системами (такими как морфологические, сентимент и синтаксический анализаторы) очень сложно обрабатывать. Необходим подход к лексической обработке, нормализации сетевых текстов, например, извлечению из них неологизмов. В работе мы исследовали англицизмы, разработали метод их автоматического нахождения, использовали технологии глубокого/глубинного обучения для данной задачи.
Тема конференции AINL очень удачно совпала с темой нашего метода, в результате чего нашу статью взяли, и мне удалось выступить и поделиться с научным сообществом нашей наработкой.
В целом, AINL оставил отличные впечатления, было множество сильных и интересных докладов, прекрасные люди, а Санкт-Петербург порадовал снежной, даже рождественской атмосферой.
Я участвовала в постерной сессии AINL, где было представлено семь работ на самые разнообразные темы: от автоматического извлечения корня слова до построения сети героев из произведений художественной литературы. Каждому участнику давалось по две минуты на краткую презентацию своей работы, после чего все желающие могли посмотреть постеры и задать их авторам вопросы. Этот блок был совмещен с фуршетом, так что дискуссии получились очень оживленными и доброжелательными. Мне удалось пообщаться как с коллегами из питерской Вышки, так и с московскими лингвистами.
Я рассказывала о своем лемматизаторе для древнеирландского языка, написанном в рамках прошлогодней курсовой работы. Древнеирландская орфография крайне вариативна, поэтому задача предсказания лемм для несловарных форм близка к спеллчекингу, и моя работа была в основном посвящена созданию алгоритма для отождествления несловарных форм со словарными на основе расстояния Дамерау-Левенштейна.
В постерной секции также участвовала студентка I курса школы лингвистики Татьяна Шаврина с демо-презентацией новых функций ГИКРЯ.