• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Митрополиты, мудрецы, переводчики в cредневековой Европе

Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.

М.: Издательский дом НИУ ВШЭ, 2024.

Статья
Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa

Svetlana Iu. Toldova, Elena O. Sokur.

Journal of Siberian Federal University. Series: Humanities & Social Sciences. 2024. Vol. 17. No. 5. P. 905-915.

Глава в книге
SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

Rykov E., Zaytsev K., Anisimov I. et al.

In bk.: CLEF 2024 Working Notes. CEUR Workshop Proceedings, 2024. P. 2866-2871.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Создан модуль для ви­зу­а­ли­за­ции дис­три­бу­тив­но-се­ман­ти­че­ских моделей для языка Python

В рамках проекта по исследованию дистрибутивных семантических моделей под руководством Андрея Кутузова создан инструмент для интерактивной визуализации языковых эмбеддингов. Теперь вместо статической картинки любой желающий заглянуть в семантическое пространство может посмотреть на интерактивный граф, подвигать узлы, перейти от слова-центра сети к сетям, где центрами являются его соседи.

Модуль для языка Python, созданный сотрудниками и студентами Школы лингвистики, позволяет сгенерировать интерактивную веб-страницу для визуализации семантических «соседей– определенного слова. Нередкой задачей при работе с эмбеддингами (эмбеддинг — это представление слова в многомерном пространстве) является визуализация определенной части модели. Популярные фреймворки для работы с языковыми моделями, как, например, gensim, позволяют извлекать из моделей списки соседей того или иного слова (вкупе с некоторой метаинформацией вроде косинусного расстояния). По своей структуре такая информация представляет собой граф. Для визуального представления графов в языке Python есть пакет NetworkX, однако результатом его работы является статическая картинка — и это проблема, если, к примеру, узлы графа оказываются расположены слишком близко друг к другу, или граф слишком велик, в итоге одни части структуры отрисовываются поверх других.

Визуализация графа в виде интерактивного изображения на веб-странице позволяет пользователю взаимодействовать с элементами семантической структуры — отодвигать,  менять общее расположение, при этом пропорции графа сохраняются. Благодаря гиперссылкам в веб-странице можно реализовать переходы от одного графа к другому. Так, если мы генерируем не один граф «соседей», а также «соседей соседей», то при клике на такого «соседа» (т. е. на нецентральный узел) в одной визуализации мы будем переходить на страницу, где он является центром. Это необходимо, если мы хотим более глубоко исследовать семантическое пространство.

Кроме того, браузер как платформа гораздо гибче, при желании поменять оформление визуализации можно без повторной генерации картинки (просто с помощью CSS).

Проектом в рамках группы по визуализации эмбеддингов занимались сотрудники и студенты Школы лингвистики Т. Жордания, Н. Катричева,  E. Кузьменко, А. Кутузов, А. Лисицына, А. Яскевич.