• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Доклад Елизаветы Кузьменко "Сравнение словарных и автоматически сгенерированных синонимических рядов"

Участник НУГ Елизавета Кузьменко выступила на конференции "Корпусные технологии.
Digital Humanities и современное знание" в Нижнем Новгороде с докладом "Сравнение словарных и автоматически сгенерированных синонимических рядов".

Аннотация доклада

В настоящее время чрезвычайно перспективной областью NLP является дистрибутивная семантика. Дистрибутивные семантические модели позволяют вычислить, какие слова употребляются в одинаковых контекстах и предположительно обладают похожим значением. Это могут быть как синонимы (красивый, прекрасный), так и ассоциаты (огурец, помидор). Настоящее исследование ставит своей целью сравнить словарные синонимические ряды с рядами, которые генерируются автоматически. Во-первых, такое сравнение позволяет оценить качество дистрибутивных семантических моделей и подсчитать, какое количество предлагаемых моделью ассоциатов является надежными синонимами. Во-вторых, это позволяет расширить словарные ресурсы и обогатить онтологии автоматическим образом.

Дистрибутивные семантические модели создаются при помощи утилиты word2vec (Mikolov et al., 2013). В этом исследовании мы работаем с 4 языками: русским, английским, французским, немецким. В качестве основного слова берется главный синоним в словарном синонимическом ряду. Для этого слова мы выбираем 5 наиболее семантически близких слов из дистрибутивной модели. Затем мы считаем пересечение между полученным списком и словарным рядом при помощи такой метрики, как коэффициент Жаккарда (Jaccard, 1901).

Полученные результаты мы используем для анализа схожести словарных и автоматически сгенерированных рядов в разных языках. В дальнейшем мы планируем изучить способы более точного извлечения синонимов из дистрибутивных семантических моделей.