Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.
In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.
arxiv.org. Computer Science. Cornell University, 2024
Традиционный пятничный семинар Школы лингвистики был не совсем обычным: на нем с докладом выступили недавние выпускники бакалавриата Школы лингвистики и Школы филологии, а теперь преподаватели и сотрудники разных подразделений ВШЭ Дарья Глебова, Евгений Глазунов и Анастасия Костяницына (последние – сотрудники Центра вычислительных наук об образовании).
Они рассказали о своем проекте, в котором филолог и три лингвиста-компьютерщика (Евгений Глазунов, Анастасия Костяницына и Анна Кондратьева) объединились, чтобы разработать программные методы поиска формульных выражений (повторяющихся конструкций с той или иной степенью вариативности) в огромном объеме текстов древнеисландских саг.
Жил человек по имени Мард, по прозванию Скрипица. Он был сын Сигвата Рыжего. Его двор был на равнине Рангарвеллир. Это был богатый хавдинг, охотно помогавший в тяжбах. Он был таким знатоком законов, что решения, принятые без его участия, казались незаконными. У него была единственная дочь, по имени Унн. Это была красивая девушка, учтивая и хорошего нрава. Она слыла лучшей невестой в округе.
Теперь сага переходит к людям из долин Брейдафьорда.
«Сага о Ньяле»
Филологи по-разному выделяют и классифицируют устойчивые нарративные выражения в сагах, но для автоматического поиска повторяющихся структур существенно вычленение трех типов конструкций: закрытых, полуоткрытых и открытых.
Закрытые конструкции лексически идентичны:
Проделанная участниками проекта работа по автоматизации поиска состояла из следующих этапов:
N-грамма — это последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже — символов).
Разработчики выделили основные критерии нграмм, на основе которых можно осуществлять их фильтрацию.
Нграмма – последовательность слов, которая:
- обязательно содержит глагол
Подробно детали работы можно прочитать на странице проекта на Github.
Участники семинара предложили в ходе дальнейшей работы попробовать привязать формулы к нарративу (глагольной цепочке) и использовать алгоритм c-value.
В обсуждении проекта приняли участие Е.В.Рахилина, О.Н.Ляшевская, С.Ю.Толдова, Ю.М.Кувшинская и другие преподаватели Школы лингвистики.
C / NC value – метод выделения многословных терминов, предложенный Frantzi et al. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата. Вложенные термины (nested terms) – это понятия, содержащиеся в исходном тексте как по отдельности, так и в составе других понятий.