Лингвисты Вышки на «Диалоге–2017»

На минувшей неделе в Москве прошла международная конференция по компьютерной лингвистике «Диалог». Эта конференция уже много лет служит «местом встречи» прикладных специалистов по обработке естественного языка (программистов, инженеров, лингвистов-аналитиков) с академическими лингвистами, которые этот язык исследуют и моделируют. Конференция длилась четыре дня, и на каждый из них пришлось по несколько докладов школы лингвистики Факультета гуманитарных наук НИУ ВШЭ.

Начался «Диалог» с выступления Юлии Бадрызловой. В секции «Технологии лингвистического анализа» она представила исследование (выполненное вместе с Полиной Паничевой из СПбГУ) по автоматическому обнаружению глагольной метафоры средствами дистрибутивной семантики.

Применение моделей, учитывающих статистику контекстов употребления глагола, позволяют отличить прямое и непрямое значение слова (ср. столяр пилит доску и департамент пилит деньги или террористы взорвали самолет и заявление взорвало блогосферу)

В этот же день научный сотрудник лаборатории нейролингвистики Анастасия Лопухина вместе с Константином Лопухиным (Scraping Hub) рассказали о том, как автоматически разделять разные значения многозначных слов и выявлять при этом случаи регулярной полисемии (и тоже с помощью дистрибутивных моделей).

В этом исследовании также участвовал доцент школы лингвистики Борис Иомдин.

Затем доцент школы лингвистики Светлана Толдова и Максим Ионов из МГУ им. Ломоносова сделали доклад о том, какую роль играют в автоматическом разрешении анафоры семантические признаки.

Вечером того же дня состоялся доклад руководителя школы лингвистики Екатерины Рахилиной с интригрующим названием «Говорю я, Карл…».

Она рассказала об одной интересной устаревшей языковой конструкции, обнаруженной в текстах М.Ю. Лермонтова. Конструкция эта, по-видимому, является калькой из французского языка, однако при этом в современном французском соответствующий оборот также не встречается — следы его удалось найти, только исследовав французские тексты XIX века.

В той же секции выступала и профессор школы лингвистики Валентина Апресян. Её доклад был посвящен отрицательной и положительной поляризации в русском языке.

В секции по «автоматическому построению языковых моделей и получению лингвистических данных» приняли участие преподаватель школы филологии Александр Пиперски и приглашенный преподаватель школы лингвистики, научный сотрудник Университета Осло Андрей Кутузов. Александр Пиперски рассказывал о подходе к исследованию семантического ореола метра с помощью метода выделения ключевых слов.

Андрей Кутузов представил исследование корреляции между формой и значением слова на материале русского языка. Это исследование хотя и не ставит под сомнение, но значительно расширяет представление лингвистов об исключениях из закона произвольности языкового знака.

На следующий день подводились итоги ежегодного соревнования прикладных систем — еще одна традиция «Диалога». В этом году соревновались морфологические анализаторы, в организации «дорожек» участвовали представители школы лингвистики — профессор Ольга Ляшевская, студентка магистерской программы «Компьютерная лингвистика» Татьяна Шаврина, а также другие студенты и выпускники.

Ольга Ляшевская и Татьяна Шаврина выступают на «Диалоге–2017»

В секции «Новые технологии анализа документов» было два доклада от школы лингвистики. Первый представили Евгения Мещерякова и Любовь Нестеренко — они рассказали о тематической классификации текстов в call-центрах.

Основную сложность в этой задаче составляет низкое качество автоматического распознавания звучащей речи, из-за которого фраза спасибо за звонок, до свидания легко превращается в спасибо за ногти коня.

Второй доклад сделал Даниил Скоринкин, показавший, как можно извлечь из художественного текста социальные сети персонажей, визуализировать их в виде графов, а также понять таким образом кое-что про внутреннюю структуру романа «Война и мир».

В последний день «Диалога» сотрудники школы лингвистики выступали в двух секциях — «Лингвистическая семантика. Формальные модели языка» и «Компьютерная психолингвистика. Автоматизация обучения». В первой секции доцент школы Александр Летучий представил свое исследование предикатов, маркированных и немаркированных по времени.

Во второй секции выступии доцент школы лингвистики Наталия Слюсарь с докладом «Орфографические соседи с заменой буквы при изучении механизмов лексического доступа»…

…а также профессор Ольга Ляшевская и доцент Ольга Виноградова — они рассказали о компьютерном методе полуавтоматической оценки студенческих эссе на экзаменах по английскому в НИУ ВШЭ.

Впечатления участников:

Ольга Ляшевская, профессор школы лингвистики

Мы с коллегами выступали организаторами двух соревнований в рамках «Диалога» — по морфологическому анализу русскоязычных текстов и по определению плагиата. Кстати, тестовые данные для систем определения плагиата помогала готовить наша мастерская «Антиплагиат», организованная в рамках проектной работы третьего курса. В целом, здорово, как много докладов было из Вышки, и особенно приятно было видеть множество докладов наших аспирантов и студентов. Некоторые студенты, нынешние и выпустившиеся, представляли компании, в которых они работают.

А на стендовой сессии, я бы сказала, уровень исследований наших студентов сильно обгонял большинство представленных «взрослых» докладов.Процедура рецензирования в этом году была строже, чем раньше, как мне показалось, например, одной из моих аспиранток пришлось трижды дорабатывать текст, чтобы перевести его из статуса «revise and resubmit» в «принятые к публикации в сборнике». Требовательный программный комитет ожидал, чтобы описанные гипотезы и алгоритмы были проверены экспериментально на большом объеме реальных данных, поэтому «проспекты проектов» и «размышления по поводу» остались за бортом. Даже не знаю, хорошо это или плохо.

Дата

8 июня, 2017 г.

Рубрики

Наука

Темы

профессора студенты исследования и аналитика репортаж о событии конференция Диалог

В статье упомянуты

Школа лингвистики

Персоны