Доклад Елизаветы Кузьменко "Сравнение словарных и автоматически сгенерированных синонимических рядов"
Участник НУГ Елизавета Кузьменко выступила на конференции "Корпусные технологии.
Digital Humanities и современное знание" в Нижнем Новгороде с докладом "Сравнение словарных и автоматически сгенерированных синонимических рядов".
Аннотация доклада
В настоящее время чрезвычайно перспективной областью NLP является дистрибутивная семантика. Дистрибутивные семантические модели позволяют вычислить, какие слова употребляются в одинаковых контекстах и предположительно обладают похожим значением. Это могут быть как синонимы (красивый, прекрасный), так и ассоциаты (огурец, помидор). Настоящее исследование ставит своей целью сравнить словарные синонимические ряды с рядами, которые генерируются автоматически. Во-первых, такое сравнение позволяет оценить качество дистрибутивных семантических моделей и подсчитать, какое количество предлагаемых моделью ассоциатов является надежными синонимами. Во-вторых, это позволяет расширить словарные ресурсы и обогатить онтологии автоматическим образом.
Дистрибутивные семантические модели создаются при помощи утилиты word2vec (Mikolov et al., 2013). В этом исследовании мы работаем с 4 языками: русским, английским, французским, немецким. В качестве основного слова берется главный синоним в словарном синонимическом ряду. Для этого слова мы выбираем 5 наиболее семантически близких слов из дистрибутивной модели. Затем мы считаем пересечение между полученным списком и словарным рядом при помощи такой метрики, как коэффициент Жаккарда (Jaccard, 1901).
Полученные результаты мы используем для анализа схожести словарных и автоматически сгенерированных рядов в разных языках. В дальнейшем мы планируем изучить способы более точного извлечения синонимов из дистрибутивных семантических моделей.