Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Fomin D., Ilya Makarov, Voronina M. et al.
IEEE Access. 2024. Vol. 12. P. 196195-196206.
Afanasev I., Lyashevskaya O.
In bk.: Structuring Lexical Data and Digitising Dictionaries: Grammatical Theory, Language Processing and Databases in Historical Linguistics. Leiden; Boston: Brill, 2024. P. 13-35.
arxiv.org. Computer Science. Cornell University, 2024
LREC — это конференция по компьютерной лингвистике с фокусом на языковые ресурсы, корпуса и инструменты для их создания. В этом году конференция проходила в гибридном формате: можно было приехать выступить вживую в Palais du Pharo, а можно было записать видео выступления заранее. Помимо видео, нужно было написать статью и отправить организаторам слайды своего выступления. Все тексты статей, видео и слайды сейчас доступны на сайте конференции.
Помимо основной сессии, на конференции было множество воркшопов, а также несколько тьюториалов и постерные сессии.
Я была в числе авторов двух статей, представленных на конференции. Первая из них называется Phonetics of Negative Headshake in Russian Sign Language: A Small-Scale Corpus Study и посвящена она исследованию отрицательных поворотов головы в русском жестовом языке с помощью готовых инструментов компьютерного зрения. Её мы с моим соавтором Вадимом Киммельманом подали на воркшоп, посвященный обработке жестовых языков. Для выступления мы заранее перед конференцией записали видео, при этом докладывались мы на International Sign — искусственной жестовой системе, созданной специально для международных мероприятий. Ни я, ни Вадим не знаем International Sign в совершенстве, поэтому подготовка выступления была отдельной задачей — сложной, но очень увлекательной (и, мне кажется, в итоге получилось очень неплохо).
Вторую статью, которая называется Attention Understands Semantic Relations, мы написали с коллегами из лаборатории DeepPavlov, в которой я сейчас работаю. Это пробинговое исследование посвящено изучению семантических отношений в языковых моделях. Пробинговое исследование — это работа по исследованию того, насколько современные языковые модели (нейросети, которыми мы сейчас пользуемся практически во всех задачах NLP) обобщают знания из текста и сколько вообще этого знания в них есть. Проблема в том, что мы пользуется нейросетями, но не всегда до конца понимаем, почему они так хорошо решают работают — не является ли это результатом простого запоминания текстов, вместо обобщения знания, которое мы бы хотели там видеть. В нашей работе мы пытаемся извлекать графы знаний из текста с помощью анализа внутреннего механизма языковых моделей (так называемого механизма внимания). Графы знаний — это такой способ представления семантических отношений между сущностями в тексте: например, в предложении Москва — столица России между сущностями Москва и Россия есть отношение столица, это отношение мы и хотим извлечь. В нашей работе мы предлагаем простой наивный способ для извлечения этих отношений из моделей, а потом интерпретируем его результаты. Это исследование стало первым шагом в проекте по разработке необучаемых методов извлечения графов знаний из языковых моделей.
Эту статью, несмотря на все нынешние трудности с поездками за границу, мне удалось представить очно на постерной сессии. Мой доклад вызвал немалый интерес всех слушателей, которые не поленились прийти на место проведения конференции к 9:30 утра. Я ни минуты не стояла у своего постера в одиночестве — у меня всё время были слушатели. Более того, люди подходили ко мне и после окончания сессии, так что обсуждение нашей работы продолжалось и во время кофе-брейка. А когда я уже сняла постер со стенда, ко мне подошли ещё слушатели, которые не успели задать вопрос, поэтому пришлось устроить еще один импровизированный рассказ, расположив постер прямо на полу.
LREC-2022 был моей первой в жизни очной конференцией, и, конечно, оставил очень приятные впечатления и вдохновил меня на продолжение работы как исследователя. Меня очень впечатлила атмосфера конференции — очень доброжелательная и приятная. Все открыты к обсуждению и всегда готовы поделиться своими мыслями по поводу исследований, так что эта разница в опыте не чувствуется (на конференции были как крутые и опытные учёные, так и начинающие исследователи типа меня), и это вдохновляет. Место проведения тоже порадовало — очень уж красивый этот Palais du Pharo.
Добавим только, что помимо Анастасии в конференции приняли участие и другие наши коллеги: Антон Бузанов, Полина Бычкова, Арина Молчанова, Анна Постникова и Дарья Рыжова представили статью Multilingual Pragmaticon: Database of Discourse Formulae, а Юрий Макаров, Максим Меленченко и Дмитрий Новокшанов (ИКВИА) представили Шугнанский проект на воркшопе Workshop on Resources and Technologies for Indigenous, Endangered and Lesser-resourced Languages in Eurasia (EURALI) статьёй Digital Resources for the Shughni Language, а также выступили на постерной сессии — правда, не в очном формате.