Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Хорог: Институт гуманитарных наук НАНТ, 2025.
Shvedova E., Koryakov Y., Забелина Е. А.
Journal of Language Relationship. 2025. Vol. 23. No. 2.
Khachaturyan M., Konoshenko M., Moroz G. et al.
In bk.: N’yng-dyuumgu, n’yng-ngafq: Festschrift for Ekaterina Gruzdeva. Vol. 126. Helsinki: Studia Orientalia, 2025. P. 35-59.
arxiv.org. Computer Science. Cornell University, 2024
Конференция молодых филологов в Тарту (она же «тартуская молодежка») давно вошла в обязательную программу научных выездов вышкинцев-филологов. Каждую весну в «Афины на Эмбахе» съезжаются исследователи словесности, знатоки Жуковского и Баратынского, любители Блока и Мандельштама. В стенах старинного Тартуского университета, славящегося своими филологическими традициями, литературоведы обсуждают влияние Диккенса на Льва Толстого, пересчитывают корабли из мандельштамовского списка, спорят о том, какой танец танцевала Наташа Ростова в гостях у дядюшки.
Однако с этого года у «молодежки» появился компьютерный «привкус» - секция «Цифровые гуманитарные науки». На этот раз вместе с литературоведами в Тарту высадился полноценный десант компьютерных лингвистов. Новые участники конференции, представляющие Школу лингвистики ВШЭ (а это совсем не то же самое, что Школа филологии), в своих выступлениях показали, как можно получать новые знания о художественных произведениях при помощи различных методов автоматической обработки текста.
Компьютеру трудно сравниться с человеком «на короткой воде»: если необходимо понять что-то об одном-двух произведениях, ученый-филолог обычно может обойтись без всякой автоматизации. Другое дело – когда речь идет об огромном корпусе текстов, в котором миллионы слов. Тогда хорошо продуманная машинная предобработка может сэкономить десятки, а то и сотни часов труда исследователей. Пример такого корпуса – собрание сочинений Л.Н. Толстого, 90 томов которого содержат 46000 страниц текста – итог долгой и невероятно продуктивной жизни великого писателя.
Аспирант Школы лингвистики Даниил Скоринкин рассказал о подготовке электронного «семантического» издания 90-томника Толстого, которое получит дополнительный машиночитаемый слой и позволит обращаться к тексту с нетривиальными вопросами. Например, посмотреть все реплики того или иного героя, получить список корреспондентов Толстого за определенный год, выстроить в цепочку письма, и даже просто увидеть все случаи, где один участок текста был исправлен и заменен другим (а таких исправлений и вставок у Толстого – десятки тысяч). Возможность получать подобную информацию «в один клик» даст специальная метаразметка, создаваемая в полуавтоматическом режиме и соответствующая международному стандарту TEI (Text Encoding Initiative).
Разумеется, дополнительный информационный слой «поверх» текста может помочь узнать новое не только профессиональным исследователям-филологам. Почти каждый современный читатель сталкивается с незнакомыми словами при чтении русской классики. Что такое брульон? Где служит фурштатский солдат? Как будут ехать лошади, если их запрячь цугом? Программа, которую представила Любовь Полянская, студентка 2 курса бакалавриата, призвана автоматически выявлять редкие или вышедшие из употребления слова и порождать к ним разъясняющие комментарии.
А может ли компьютер сам справляться со сложными аналитическими задачами вроде датировки художественных произведений? Ответить на этот вопрос попытался студента 3 курса бакалавриата Алексей Агапов. Он представил результаты работы по автоматическому определению даты написания литературного произведения. Его программа с небольшими погрешностями идентифицировала даты написания нескольких переводов Гамлета на русский язык. Сильное расхождение с настоящей датировкой выявилось лишь в одном случае, где переводчик намеренно стилизовал текст «под старину».
Многие знаменитые литературоведы задумывались о связи между метрикой стихотворения и его темой: если перед нами стихотворение, написанное трехстопным анапестом с женской клаузулой, то, вероятнее всего, оно о любви? или о смерти? или это поздравление на юбилей?.. Эльмира Мустакимова, студентка 3 курса бакалавриата, решила помочь коллегам-филологам и написала программу, которая вычленяет из стихотворений ключевые слова, собирает их в семантический ореол (для каждого метра он свой). Специалист может проанализировать такие «облака» слов и найти общую для какого-либо метра тему, кочующую из стихотворения в стихотворение.
Одна из самых «скандальных» тем в современном литературоведении – определение авторства текста. В спорах о том, кто же написал «Тихий дон», «Гамлета» и «Илиаду», сломано больше копий, чем во всех битвах Троянской войны. На эту опасную территорию решилась зайти Мария Объедкова, студентка 2 курса бакалавриата. В своем исследовании Мария выяснила, какие свойства текстов позволяют говорить о том, что они принадлежат перу одного человека.
Разумеется, на филологической конференции не обошлось без разговора о том, что называется моднымсловом «интертекстуальность». Переклички между произведениями, ссылки одного автора на другого, скрытые и явные цитаты – все это давно относится к магистральным темам литературоведения. Наталия Тышкевич, студентка 4 курса бакалавриата, поделилась результатами своей дипломной работы, посвященной автоматическому определению цитат в тексте. Материалом для исследования послужили несколько литературных журналов. Во время доклада слушатели смогли проверить память и эрудицию, вспоминая авторов наиболее часто цитируемых строк.
После успешного выступления у лингвистов была возможность пообщаться с филологами (и не только) в неформальной обстановке – прогуливаясь по зеленеющим паркам и холмам весеннего Тарту, обедая в мрачном старинном «пороховом погребе», а также сидя на берегу Эмайыги с вином и мандаринами. В такой обстановке неудивительно, что коллектив участников и слушателей конференции единогласно решил следовать заветам кота Леопольда и жить дружно.
Любовь Полянская,
студентка второго курса бакалавриата
Школы лингвистики
Даниил Скоринкин,
аспирант Школы лингвистики