Программисты ищут формулы в древнеисландских сагах

Молодые преподаватели и сотрудники ВШЭ Дарья Глебова, Евгений Глазунов и Анастасия Костяницына на научном семинаре рассказали о том, как программирование помогает искать формульные выражения в древнеисландских сагах.

Image by Mats Trägårdh from Pixabay

Free

Традиционный пятничный семинар Школы лингвистики был не совсем обычным: на нем с докладом выступили недавние выпускники бакалавриата Школы лингвистики и Школы филологии, а теперь преподаватели и сотрудники разных подразделений ВШЭ Дарья Глебова, Евгений Глазунов и Анастасия Костяницына (последние – сотрудники Центра вычислительных наук об образовании).

Они рассказали о своем проекте, в котором филолог и три лингвиста-компьютерщика (Евгений Глазунов, Анастасия Костяницына и Анна Кондратьева) объединились, чтобы разработать программные методы поиска формульных выражений (повторяющихся конструкций с той или иной степенью вариативности) в огромном объеме текстов древнеисландских саг.

Жил человек по имени Мард, по прозванию Скрипица. Он был сын Сигвата Рыжего. Его двор был на равнине Рангарвеллир. Это был богатый хавдинг, охотно помогавший в тяжбах. Он был таким знатоком законов, что решения, принятые без его участия, казались незаконными. У него была единственная дочь, по имени Унн. Это была красивая девушка, учтивая и хорошего нрава. Она слыла лучшей невестой в округе.

Теперь сага переходит к людям из долин Брейдафьорда.

«Сага о Ньяле»

Филологи по-разному выделяют и классифицируют устойчивые нарративные выражения в сагах, но для автоматического поиска повторяющихся структур существенно вычленение трех типов конструкций: закрытых, полуоткрытых и открытых.

Закрытые конструкции лексически идентичны:

X hét maðr (Человека звали Х)

Полуоткрытые лексически различны, но семантически сходны (слова могут быть заменены на синонимы):

skiljask með kærleik (Они расстались по-дружески)
skiljask með blíðu (Они расстались по-дружески)
skiljask með vináttu (Они расстались по-дружески)

Открытые конструкции – это схожие синтаксические конструкции, которые отличаются лексически и семантически:

Ekki hefi ek nýligra frétt en ránit (никаких новостей, кроме ограбления)
Ekki höfum vér nú nýligar frétt en brennu Blund-Ketils bónda (никаких новостей, кроме сожжения Кетиля)

Проделанная участниками проекта работа по автоматизации поиска состояла из следующих этапов:

формирования списка нграмм
фильтрации на основе лингвистических особенностей исландского языка
«схлопывания» контекстных вариантов (открытый и полуоткрытый типы конструкций)
кластеризации
создания базы данных

N-грамма — это последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже — символов).

Разработчики выделили основные критерии нграмм, на основе которых можно осуществлять их фильтрацию.

Нграмма – последовательность слов, которая:

- обязательно содержит глагол
- синтаксически цельна
- имеет частеречную значимость не менее 90%

Подробно детали работы можно прочитать на странице проекта на Github.

Участники семинара предложили в ходе дальнейшей работы попробовать привязать формулы к нарративу (глагольной цепочке) и использовать алгоритм c-value.

В обсуждении проекта приняли участие Е.В.Рахилина, О.Н.Ляшевская, С.Ю.Толдова, Ю.М.Кувшинская и другие преподаватели Школы лингвистики.

C / NC value – метод выделения многословных терминов, предложенный Frantzi et al. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата. Вложенные термины (nested terms) – это понятия, содержащиеся в исходном тексте как по отдельности, так и в составе других понятий.

Дата

17 мая, 2021 г.

Рубрики

Наука

Темы

исследования и аналитика digital humanities Научный семинар Школы лингвистики

В статье упомянуты

Школа лингвистики

Персоны

Глазунов Евгений Владимирович

Глебова Дарья Сергеевна

Костяницына Анастасия Михайловна