Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова и Кирилл Алексеевич Аксенов
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Егорова Г. С., Иванова М. О., Митина Е. И. и др.
М.: 2022.
Багирокова И. Г., Рыжова Д. А.
Вопросы языкознания. 2022. № 4. С. 95-114.
Апресян В. Ю., Шмелев А. Д.
В кн.: Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2022», выпуск 21. Вып. 21. Изд-во РГГУ, 2022. Гл. 3. С. 18-32.
Shliazhko O., Fenogenova A., Tikhonova M. et al.
Statistical mechanics. arXie. arXive, 2022
LREC — это конференция по компьютерной лингвистике с фокусом на языковые ресурсы, корпуса и инструменты для их создания. В этом году конференция проходила в гибридном формате: можно было приехать выступить вживую в Palais du Pharo, а можно было записать видео выступления заранее. Помимо видео, нужно было написать статью и отправить организаторам слайды своего выступления. Все тексты статей, видео и слайды сейчас доступны на сайте конференции.
Помимо основной сессии, на конференции было множество воркшопов, а также несколько тьюториалов и постерные сессии.
Я была в числе авторов двух статей, представленных на конференции. Первая из них называется Phonetics of Negative Headshake in Russian Sign Language: A Small-Scale Corpus Study и посвящена она исследованию отрицательных поворотов головы в русском жестовом языке с помощью готовых инструментов компьютерного зрения. Её мы с моим соавтором Вадимом Киммельманом подали на воркшоп, посвященный обработке жестовых языков. Для выступления мы заранее перед конференцией записали видео, при этом докладывались мы на International Sign — искусственной жестовой системе, созданной специально для международных мероприятий. Ни я, ни Вадим не знаем International Sign в совершенстве, поэтому подготовка выступления была отдельной задачей — сложной, но очень увлекательной (и, мне кажется, в итоге получилось очень неплохо).
Вторую статью, которая называется Attention Understands Semantic Relations, мы написали с коллегами из лаборатории DeepPavlov, в которой я сейчас работаю. Это пробинговое исследование посвящено изучению семантических отношений в языковых моделях. Пробинговое исследование — это работа по исследованию того, насколько современные языковые модели (нейросети, которыми мы сейчас пользуемся практически во всех задачах NLP) обобщают знания из текста и сколько вообще этого знания в них есть. Проблема в том, что мы пользуется нейросетями, но не всегда до конца понимаем, почему они так хорошо решают работают — не является ли это результатом простого запоминания текстов, вместо обобщения знания, которое мы бы хотели там видеть. В нашей работе мы пытаемся извлекать графы знаний из текста с помощью анализа внутреннего механизма языковых моделей (так называемого механизма внимания). Графы знаний — это такой способ представления семантических отношений между сущностями в тексте: например, в предложении Москва — столица России между сущностями Москва и Россия есть отношение столица, это отношение мы и хотим извлечь. В нашей работе мы предлагаем простой наивный способ для извлечения этих отношений из моделей, а потом интерпретируем его результаты. Это исследование стало первым шагом в проекте по разработке необучаемых методов извлечения графов знаний из языковых моделей.
Эту статью, несмотря на все нынешние трудности с поездками за границу, мне удалось представить очно на постерной сессии. Мой доклад вызвал немалый интерес всех слушателей, которые не поленились прийти на место проведения конференции к 9:30 утра. Я ни минуты не стояла у своего постера в одиночестве — у меня всё время были слушатели. Более того, люди подходили ко мне и после окончания сессии, так что обсуждение нашей работы продолжалось и во время кофе-брейка. А когда я уже сняла постер со стенда, ко мне подошли ещё слушатели, которые не успели задать вопрос, поэтому пришлось устроить еще один импровизированный рассказ, расположив постер прямо на полу.
LREC-2022 был моей первой в жизни очной конференцией, и, конечно, оставил очень приятные впечатления и вдохновил меня на продолжение работы как исследователя. Меня очень впечатлила атмосфера конференции — очень доброжелательная и приятная. Все открыты к обсуждению и всегда готовы поделиться своими мыслями по поводу исследований, так что эта разница в опыте не чувствуется (на конференции были как крутые и опытные учёные, так и начинающие исследователи типа меня), и это вдохновляет. Место проведения тоже порадовало — очень уж красивый этот Palais du Pharo.
Добавим только, что помимо Анастасии в конференции приняли участие и другие наши коллеги: Антон Бузанов, Полина Бычкова, Арина Молчанова, Анна Постникова и Дарья Рыжова представили статью Multilingual Pragmaticon: Database of Discourse Formulae, а Юрий Макаров, Максим Меленченко и Дмитрий Новокшанов (ИКВИА) представили Шугнанский проект на воркшопе Workshop on Resources and Technologies for Indigenous, Endangered and Lesser-resourced Languages in Eurasia (EURALI) статьёй Digital Resources for the Shughni Language, а также выступили на постерной сессии — правда, не в очном формате.