• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
Корпусная лингвистика на современном этапе

Плунгян В. А.

Вестник Российской академии наук. 2024. Т. 94. № 9. С. 787-794.

Глава в книге
Time Series Generation with GANs for Momentum Effect Simulation on Moscow Stock Exchange
В печати

Pozdnyakov V., Makarov I., Maksim Kazadaev.

In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Лингвисты Вышки на «Диалоге–2017»

На минувшей неделе в Москве прошла международная конференция по компьютерной лингвистике «Диалог». Эта конференция уже много лет служит «местом встречи» прикладных специалистов по обработке естественного языка (программистов, инженеров, лингвистов-аналитиков) с академическими лингвистами, которые этот язык исследуют и моделируют. Конференция длилась четыре дня, и на каждый из них пришлось по несколько докладов школы лингвистики Факультета гуманитарных наук НИУ ВШЭ.

Начался «Диалог» с выступления Юлии Бадрызловой. В секции «Технологии лингвистического анализа» она представила исследование (выполненное вместе с Полиной Паничевой из СПбГУ) по автоматическому обнаружению глагольной метафоры средствами дистрибутивной семантики.



Применение моделей, учитывающих статистику контекстов употребления глагола, позволяют отличить прямое и непрямое значение слова (ср. столяр пилит доску и департамент пилит деньги или террористы взорвали самолет и заявление взорвало блогосферу)

В этот же день научный сотрудник лаборатории нейролингвистики Анастасия Лопухина вместе с Константином Лопухиным (Scraping Hub) рассказали о том, как автоматически разделять разные значения многозначных слов и выявлять при этом случаи регулярной полисемии (и тоже с помощью дистрибутивных моделей).

В этом исследовании также участвовал доцент школы лингвистики Борис Иомдин.

Затем доцент школы лингвистики Светлана Толдова и Максим Ионов из МГУ им. Ломоносова сделали доклад о том, какую роль  играют в автоматическом разрешении анафоры семантические признаки.

Вечером того же дня состоялся доклад руководителя школы лингвистики Екатерины Рахилиной с интригрующим названием «Говорю я, Карл…».

Она рассказала об одной интересной устаревшей языковой конструкции, обнаруженной в текстах М.Ю. Лермонтова. Конструкция эта, по-видимому, является калькой из французского языка, однако при этом в современном французском соответствующий оборот также не встречается — следы его удалось найти, только исследовав французские тексты XIX века.

В той же секции выступала и профессор школы лингвистики Валентина Апресян. Её доклад был посвящен отрицательной и положительной поляризации в русском языке.

В секции по «автоматическому построению языковых моделей и получению лингвистических данных» приняли участие преподаватель школы филологии Александр Пиперски и приглашенный преподаватель школы лингвистики, научный сотрудник Университета Осло Андрей Кутузов. Александр Пиперски рассказывал о подходе к исследованию семантического ореола метра с помощью метода выделения ключевых слов.

Андрей Кутузов представил исследование корреляции между формой и значением слова на материале русского языка. Это исследование хотя и не ставит под сомнение, но значительно расширяет представление лингвистов об исключениях из закона произвольности языкового знака.

На следующий день подводились итоги ежегодного соревнования прикладных систем — еще одна традиция «Диалога». В этом году соревновались морфологические анализаторы, в организации «дорожек» участвовали представители школы лингвистики — профессор Ольга Ляшевская, студентка  магистерской программы «Компьютерная лингвистика» Татьяна Шаврина, а также другие студенты и выпускники.  

Ольга Ляшевская и Татьяна Шаврина выступают на «Диалоге–2017»

В секции «Новые технологии анализа документов» было два доклада от школы лингвистики. Первый представили Евгения Мещерякова и Любовь Нестеренко — они рассказали о тематической классификации текстов в call-центрах.

Основную сложность в этой задаче составляет низкое качество автоматического распознавания звучащей речи, из-за которого фраза спасибо за звонок, до свидания легко превращается в спасибо за ногти коня.

Второй доклад сделал Даниил Скоринкин, показавший, как можно извлечь из художественного текста социальные сети персонажей, визуализировать их в виде графов, а также понять таким образом кое-что про внутреннюю структуру романа «Война и мир». 

В последний день «Диалога» сотрудники школы лингвистики выступали в двух секциях — «Лингвистическая семантика. Формальные модели языка» и «Компьютерная психолингвистика. Автоматизация обучения». В первой секции доцент школы Александр Летучий представил свое исследование предикатов, маркированных и немаркированных по времени.

 

Во второй секции выступии доцент школы лингвистики Наталия Слюсарь с докладом  «Орфографические соседи с заменой буквы при изучении механизмов лексического доступа»

…а также профессор Ольга Ляшевская и доцент Ольга Виноградова — они рассказали о компьютерном методе полуавтоматической оценки студенческих эссе на экзаменах по английскому в НИУ ВШЭ.

Впечатления участников:

Ольга Ляшевская, профессор школы лингвистики

Мы с коллегами выступали организаторами двух соревнований в рамках «Диалога» — по морфологическому анализу русскоязычных текстов и по определению плагиата. Кстати, тестовые данные для систем определения плагиата помогала готовить наша мастерская «Антиплагиат», организованная в рамках проектной работы третьего курса. В целом, здорово, как много докладов было из Вышки, и особенно приятно было видеть множество докладов наших аспирантов и студентов. Некоторые студенты, нынешние и выпустившиеся, представляли компании, в которых они работают.

А на стендовой сессии, я бы сказала, уровень исследований наших студентов сильно обгонял большинство представленных «взрослых» докладов.Процедура рецензирования в этом году была строже, чем раньше, как мне показалось, например, одной из моих аспиранток пришлось трижды дорабатывать текст, чтобы перевести его из статуса «revise and resubmit» в «принятые к публикации в сборнике». Требовательный программный комитет ожидал, чтобы описанные гипотезы и алгоритмы были проверены экспериментально на большом объеме реальных данных, поэтому «проспекты проектов» и «размышления по поводу» остались за бортом. Даже не знаю, хорошо это или плохо.