Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Вестник Российской академии наук. 2024. Т. 94. № 9. С. 787-794.
Pozdnyakov V., Makarov I., Maksim Kazadaev.
In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.
arxiv.org. Computer Science. Cornell University, 2024
На минувшей неделе в Москве прошла международная конференция по компьютерной лингвистике «Диалог». Эта конференция уже много лет служит «местом встречи» прикладных специалистов по обработке естественного языка (программистов, инженеров, лингвистов-аналитиков) с академическими лингвистами, которые этот язык исследуют и моделируют. Конференция длилась четыре дня, и на каждый из них пришлось по несколько докладов школы лингвистики Факультета гуманитарных наук НИУ ВШЭ.
Начался «Диалог» с выступления Юлии Бадрызловой. В секции «Технологии лингвистического анализа» она представила исследование (выполненное вместе с Полиной Паничевой из СПбГУ) по автоматическому обнаружению глагольной метафоры средствами дистрибутивной семантики.
Применение моделей, учитывающих статистику контекстов употребления глагола, позволяют отличить прямое и непрямое значение слова (ср. столяр пилит доску и департамент пилит деньги или террористы взорвали самолет и заявление взорвало блогосферу)
В этот же день научный сотрудник лаборатории нейролингвистики Анастасия Лопухина вместе с Константином Лопухиным (Scraping Hub) рассказали о том, как автоматически разделять разные значения многозначных слов и выявлять при этом случаи регулярной полисемии (и тоже с помощью дистрибутивных моделей).
В этом исследовании также участвовал доцент школы лингвистики Борис Иомдин.
Затем доцент школы лингвистики Светлана Толдова и Максим Ионов из МГУ им. Ломоносова сделали доклад о том, какую роль играют в автоматическом разрешении анафоры семантические признаки.
Вечером того же дня состоялся доклад руководителя школы лингвистики Екатерины Рахилиной с интригрующим названием «Говорю я, Карл…».
Она рассказала об одной интересной устаревшей языковой конструкции, обнаруженной в текстах М.Ю. Лермонтова. Конструкция эта, по-видимому, является калькой из французского языка, однако при этом в современном французском соответствующий оборот также не встречается — следы его удалось найти, только исследовав французские тексты XIX века.
В той же секции выступала и профессор школы лингвистики Валентина Апресян. Её доклад был посвящен отрицательной и положительной поляризации в русском языке.
В секции по «автоматическому построению языковых моделей и получению лингвистических данных» приняли участие преподаватель школы филологии Александр Пиперски и приглашенный преподаватель школы лингвистики, научный сотрудник Университета Осло Андрей Кутузов. Александр Пиперски рассказывал о подходе к исследованию семантического ореола метра с помощью метода выделения ключевых слов.
Андрей Кутузов представил исследование корреляции между формой и значением слова на материале русского языка. Это исследование хотя и не ставит под сомнение, но значительно расширяет представление лингвистов об исключениях из закона произвольности языкового знака.
На следующий день подводились итоги ежегодного соревнования прикладных систем — еще одна традиция «Диалога». В этом году соревновались морфологические анализаторы, в организации «дорожек» участвовали представители школы лингвистики — профессор Ольга Ляшевская, студентка магистерской программы «Компьютерная лингвистика» Татьяна Шаврина, а также другие студенты и выпускники.
Ольга Ляшевская и Татьяна Шаврина выступают на «Диалоге–2017»
В секции «Новые технологии анализа документов» было два доклада от школы лингвистики. Первый представили Евгения Мещерякова и Любовь Нестеренко — они рассказали о тематической классификации текстов в call-центрах.
Основную сложность в этой задаче составляет низкое качество автоматического распознавания звучащей речи, из-за которого фраза спасибо за звонок, до свидания легко превращается в спасибо за ногти коня.
Второй доклад сделал Даниил Скоринкин, показавший, как можно извлечь из художественного текста социальные сети персонажей, визуализировать их в виде графов, а также понять таким образом кое-что про внутреннюю структуру романа «Война и мир».
В последний день «Диалога» сотрудники школы лингвистики выступали в двух секциях — «Лингвистическая семантика. Формальные модели языка» и «Компьютерная психолингвистика. Автоматизация обучения». В первой секции доцент школы Александр Летучий представил свое исследование предикатов, маркированных и немаркированных по времени.
Во второй секции выступии доцент школы лингвистики Наталия Слюсарь с докладом «Орфографические соседи с заменой буквы при изучении механизмов лексического доступа»…
…а также профессор Ольга Ляшевская и доцент Ольга Виноградова — они рассказали о компьютерном методе полуавтоматической оценки студенческих эссе на экзаменах по английскому в НИУ ВШЭ.
Мы с коллегами выступали организаторами двух соревнований в рамках «Диалога» — по морфологическому анализу русскоязычных текстов и по определению плагиата. Кстати, тестовые данные для систем определения плагиата помогала готовить наша мастерская «Антиплагиат», организованная в рамках проектной работы третьего курса. В целом, здорово, как много докладов было из Вышки, и особенно приятно было видеть множество докладов наших аспирантов и студентов. Некоторые студенты, нынешние и выпустившиеся, представляли компании, в которых они работают.
А на стендовой сессии, я бы сказала, уровень исследований наших студентов сильно обгонял большинство представленных «взрослых» докладов.Процедура рецензирования в этом году была строже, чем раньше, как мне показалось, например, одной из моих аспиранток пришлось трижды дорабатывать текст, чтобы перевести его из статуса «revise and resubmit» в «принятые к публикации в сборнике». Требовательный программный комитет ожидал, чтобы описанные гипотезы и алгоритмы были проверены экспериментально на большом объеме реальных данных, поэтому «проспекты проектов» и «размышления по поводу» остались за бортом. Даже не знаю, хорошо это или плохо.