Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Afanasev I., Lyashevskaya O.
In bk.: Structuring Lexical Data and Digitising Dictionaries: Grammatical Theory, Language Processing and Databases in Historical Linguistics. Leiden; Boston: Brill, 2024. P. 13-35.
arxiv.org. Computer Science. Cornell University, 2024
В декабре в Осаке (Япония) состоялась конференция COLING — одно из важнейших научных событий года в мировой компьютерной лингвистике. Ранее мы уже рассказывали об участии в ней профессора школы лингвистики Валентины Апресян и выпускника магистратуры Никиты Медянкина, а теперь публикуем интервью с научным сотрудником лаборатории нейролингвистики Анастасией Лопухиной, которая также выступила на COLING с докладом.
Расскажи, пожалуйста, об исследовании, которое вы представили на COLING.
Мы применяли методы дистрибутивной семантики к случаям регулярной полисемии (многозначности). Например, регулярными являются пары «название животного — название еды» («курица», «утка» в русском, «lamb» в английском). До этого все такие исследования опирались на векторы слов, что не очень удобно, поскольку возникают проблема доминантного (основного) значения. Если, к примеру, значение «животное» является доминантным, то второе менее распространенное значение («еда») просто теряется. Мы взяли модель AdaGram и использовали векторы отдельных значений. Это оказалось удобным, потому что мы не были ограничены ни количеством значений — их может быть не два, а три, четыре и так далее, ни наличием среди них одного доминантного.
Вооружившись всем этим, мы попробовали поискать такие регулярные семантические отношения для существительных, прилагательных и глаголов. Вне зависимости от части речи наша модель сработала относительно неплохо. Точность получилась около 59%, полнота — 55%, но здесь важно учитывать, что оценивали только по тому, что есть в «Лексической семантике» Ю.Д. Апресяна, а на самом деле метод находит больше. Были примеры, которых нет у Апресяна, но они тоже подходят как образцы различных типов регулярной полисемии.
Конечно, там еще есть над чем работать. Например, надо улучшить метод оценки качества работы модели, потому что 10 случаев регулярной полисемии — это, конечно, мало.
Я как раз хотел уточнить: а как устроена оценка качества работы вашей модели?
Идея была такая: чтобы найти случаи регулярной полисемии определенного типа, нужно задать одно слово, в котором эта полисемия есть. Например, если ты хочешь найти регулярную полисемию «качество поверхности — внутреннее свойство человека» («нежный», «мягкий», «деликатный» и т.п.), то нужно ввести слово, содержащее такую полисемию, и указать, какие два значения требуется выдать. После этого пользователю выдаются все случаи, в которых есть аналогичные отношения между значениями.
То есть, условно, я ввожу слово «деликатный», указываю два соответствующих значения и получаю пары «мягкий человек»/ «мягкий шелк», «нежная ткань»/ «нежный ребенок» и так далее?
Да, ты получишь список слов, в которых есть такая же пара значений. Два значения, которые образуют ту же самую полисемию.
И в «Лексической семантике», на которую вы опирались, описаны разные типы таких отношений?
Да, там есть названия отношений и случаи, которые эти отношения содержат. На основе примеров оттуда мы и оценивали качество работы. Но здесь надо сказать — и мы об этом пишем в статье — что то, что в теории считается регулярной полисемией, и то, что может наш метод, — это немножко разные вещи. Мы можем искать только семантически близкие слова. Например, есть такая регулярная полисемия «действие — результат этого действия» — она присутствует в словах типа «ушиб», «порез». У Ю.Д. Апресяна для этого же типа отношений приведены примеры типа «рисунок» — то есть слова, которые содержат такое отношение, но не являются семантически близкими.
То есть не близки ни по значению, ни по предметной области, но тот же тип перехода от одного значения к другому?
Да, тот же тип перехода.
Скажи, а вы делали это исследование специально для COLING? Откуда оно родилось?
Когда мы начали исследовать векторы значений, мне показалось интересным проверить, насколько семантическое векторное пространство подходит для описания регулярных отношений. Мы не ориентировались на COLING, но, как любая конференция и любой дедлайн, это подстегивало нас, чтобы что-то куда-то двигалось.
Вы делали доклад в рамках одного из воркшопов COLING. Расскажи, пожалуйста, что это было за мероприятие?
Да, это был воркшоп CogALex, «Когнитивные аспекты лексикона», наше исследование туда хорошо подходило. В рамках воркшопа был shared task (соревнование систем) по определению семантической близости. Там были две дорожки: на одной просто нужно было понять, являются ли два слова семантически связанными, а на другой уже требовалось определить тип отношения — синонимия, антонимия, гиперонимия и т.п. Несколько докладов строились вокруг этого задания, потому что оно оказалось сложным, особенно вторая его часть. Там точность не превышала 40% — то есть распространённые сегодня методы определения семантических отношений показали себя не очень хорошо. Правда, там же возникла дискуссия о том, можем ли мы вообще определять, к примеру, синонимию вне контекста. Ведь то, что модель может определить как синоним в каком-то контексте, в общем случае может синонимом не считаться.
А в дорожках были слова без контекста?
Это были просто пары слов. И нужно было определить, является ли пара синонимичной, антонимичной и т.д.
Еще одно обсуждение, которое мне запомнилось, — дискуссия на тему «векторы или графы». Многие, в том числе и приглашенный докладчик Крис Биман, высказались в том духе, что «сейчас все кинулись заниматься векторами, но на самом деле для многих задач графы подходят гораздо лучше». Посыл доклада Бимана был в том, что графы как абстракция в чем-то лучше векторов и не стоит про них забывать.
В целом насколько было полезно послушать другие доклады того же воркшопа, насколько они соотносились или пересекались с вашим исследованием?
Доклады были очень разные. Одно выступление было посвящено разрешению лексической неоднозначности с использованием LSTM, еще одно касалось ресурсов, которые позволят преодолеть проблему tip of the tongue (когда забытое слово «вертится на языке») — авторы пытаются построить семантическую сеть, которая позволит лучше подсказывать слово по набору семантических свойств.
Это иногда очень нужно!
Конечно! Вообще мне было интересно об этом послушать.
Был еще один очень полезный для нас доклад уже вне воркшопа. Когда мы занимались определением частотностей разных значений слов на русском языке, у нас были сложности с тем, чтобы сделать хорошее разделение значений для глаголов. На COLING мы послушали доклад исследователей из Google о снятии неоднозначности для глаголов. Их подход оказался похож на то, что делаем мы, — они тоже берут словарь (а не WordNet) и на нем обучаются.
То есть у вас исследование на уровне Google!
Да, мы порадовались. Но при этом они используют более продвинутый метод, в результате точность у них оказывается под 90%. Получается, что если взять как источник значений хороший словарь, а не WordNet, где все очень запутанно, то результат получается лучше. Теперь мы хотим попробовать их метод на русском материале — мы обучаемся на активном словаре — и посмотреть на результаты.
Получили ли вы полезную обратную связь на ваш доклад?
Мы обсудили и вопрос тестирования наших методов — нас немножко покритиковали за то, что у нас такая маленькая оценочная выборка. А еще нам сказали, что наши результаты могут служить входом для некоего следующего этапа, то есть частью какой-то более масштабной лингвистической системы.
Ты упоминала, что ходила слушать доклады по психолингвистическому моделированию. Расскажи о них немножко.
Мы остались на всю неделю конференции, и я ходила на те доклады, которые мне были интересны. Вообще COLING — такая конференция, на которой можно найти доклады на любой вкус.
Я послушала, что делают в психолингвистическом моделировании. Делают разное, но в основном исследователи пытаются смоделировать то, как дети учат язык. Построение моделей того, как происходит усвоение языка, как ребенок усваивает, например, фонологические оппозиции. Очевидно, что это полезно не только для того, чтобы понять, как дети все это учат, но и как можно обучить компьютерную модель.
Насколько я знаю, это первая лингвистическая конференция глобального масштаба, на которой ты докладывалась. Как впечатления?
Было ощущение, что я на сцене во время вручения «Оскара». Там действительно для доклада приходилось выходить на сцену, тебя подсвечивали. И хотелось не с докладом выступать, а произнести какую-то речь, поблагодарить маму и друзей… Там действительно все было весьма торжественно.
В этом году COLING был в Японии, не могу не спросить, как впечатления от страны?
Мне в Японии очень понравилось, очень уютная страна. Не уверена, что я там хотела бы жить, но пожить некоторое время было бы здорово. Японцы в каком-то смысле похожи на европейцев, но при этом там всё другое — начиная с растительности и заканчивая едой. И иногда ты ешь эту растительность! Например, стебли бамбука на обед.
Еда в Японии, фото Анастасии Лопухиной