• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Митрополиты, мудрецы, переводчики в cредневековой Европе

Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.

М.: Издательский дом НИУ ВШЭ, 2024.

Статья
Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa

Svetlana Iu. Toldova, Elena O. Sokur.

Journal of Siberian Federal University. Series: Humanities & Social Sciences. 2024. Vol. 17. No. 5. P. 905-915.

Глава в книге
SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

Rykov E., Zaytsev K., Anisimov I. et al.

In bk.: CLEF 2024 Working Notes. CEUR Workshop Proceedings, 2024. P. 2866-2871.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Программисты ищут формулы в древнеисландских сагах

Молодые преподаватели и сотрудники ВШЭ Дарья Глебова, Евгений Глазунов и Анастасия Костяницына на научном семинаре рассказали о том, как программирование помогает искать формульные выражения в древнеисландских сагах.

Image by Mats Trägårdh from Pixabay

Image by Mats Trägårdh from Pixabay
Free

Традиционный пятничный семинар Школы лингвистики был не совсем обычным: на нем с докладом выступили недавние выпускники бакалавриата Школы лингвистики и Школы филологии, а теперь преподаватели и сотрудники разных подразделений ВШЭ Дарья Глебова, Евгений Глазунов и Анастасия Костяницына (последние – сотрудники Центра вычислительных наук об образовании). 

Они рассказали о своем проекте, в котором филолог и три лингвиста-компьютерщика (Евгений Глазунов, Анастасия Костяницына и Анна Кондратьева) объединились, чтобы разработать программные методы поиска формульных выражений (повторяющихся конструкций с той или иной степенью вариативности) в огромном объеме текстов древнеисландских саг. 

 Жил человек по имени Мард, по прозванию Скрипица. Он был сын Сигвата Рыжего. Его двор был на равнине Рангарвеллир. Это был богатый хавдинг, охотно помогавший в тяжбах. Он был таким знатоком законов, что решения, принятые без его участия, казались незаконными. У него была единственная дочь, по имени Унн. Это была красивая девушка, учтивая и хорошего нрава. Она слыла лучшей невестой в округе.

Теперь сага переходит к людям из долин Брейдафьорда.

«Сага о Ньяле»

Филологи по-разному выделяют и классифицируют устойчивые нарративные выражения в сагах, но для автоматического поиска повторяющихся структур существенно вычленение трех типов конструкций: закрытых, полуоткрытых и открытых.

Закрытые
конструкции лексически идентичны:

    •    X hét maðr (Человека звали Х)
Полуоткрытые лексически различны, но семантически сходны (слова могут быть заменены на синонимы):
    • skiljask með kærleik (Они расстались по-дружески)
    • skiljask með blíðu (Они расстались по-дружески)
    • skiljask með vináttu (Они расстались по-дружески)
Открытые конструкции – это схожие синтаксические конструкции, которые отличаются лексически и семантически:
    • Ekki hefi ek nýligra frétt en ránit (никаких новостей, кроме ограбления)
    • Ekki höfum vér nú nýligar frétt en brennu Blund-Ketils bónda (никаких новостей, кроме сожжения Кетиля)


Проделанная участниками проекта работа по автоматизации поиска состояла из следующих этапов:

  • формирования списка нграмм
  • фильтрации на основе лингвистических особенностей исландского языка
  • «схлопывания» контекстных вариантов (открытый и полуоткрытый типы конструкций)
  • кластеризации
  • создания базы данных

N-грамма  — это последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже — символов).

Разработчики выделили основные критерии нграмм, на основе которых можно осуществлять их фильтрацию. 

Нграмма – последовательность слов, которая:

- обязательно содержит глагол 
- синтаксически цельна
- имеет частеречную значимость не менее 90%

 
Подробно детали работы можно прочитать на странице проекта на Github.

Участники семинара предложили в ходе дальнейшей работы попробовать привязать формулы к нарративу (глагольной цепочке) и использовать алгоритм c-value.

В обсуждении проекта приняли участие Е.В.Рахилина, О.Н.Ляшевская, С.Ю.Толдова, Ю.М.Кувшинская и другие преподаватели Школы лингвистики.


 C / NC value – метод выделения многословных терминов, предложенный Frantzi et al. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата. Вложенные термины (nested terms) – это понятия, содержащиеся в исходном тексте как по отдельности, так и в составе других понятий.