Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Вестник Российской академии наук. 2024. Т. 94. № 9. С. 787-794.
Pozdnyakov V., Makarov I., Maksim Kazadaev.
In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.
arxiv.org. Computer Science. Cornell University, 2024
Конференция молодых филологов в Тарту (она же «тартуская молодежка») давно вошла в обязательную программу научных выездов вышкинцев-филологов. Каждую весну в «Афины на Эмбахе» съезжаются исследователи словесности, знатоки Жуковского и Баратынского, любители Блока и Мандельштама. В стенах старинного Тартуского университета, славящегося своими филологическими традициями, литературоведы обсуждают влияние Диккенса на Льва Толстого, пересчитывают корабли из мандельштамовского списка, спорят о том, какой танец танцевала Наташа Ростова в гостях у дядюшки.
Однако с этого года у «молодежки» появился компьютерный «привкус» - секция «Цифровые гуманитарные науки». На этот раз вместе с литературоведами в Тарту высадился полноценный десант компьютерных лингвистов. Новые участники конференции, представляющие Школу лингвистики ВШЭ (а это совсем не то же самое, что Школа филологии), в своих выступлениях показали, как можно получать новые знания о художественных произведениях при помощи различных методов автоматической обработки текста.
Компьютеру трудно сравниться с человеком «на короткой воде»: если необходимо понять что-то об одном-двух произведениях, ученый-филолог обычно может обойтись без всякой автоматизации. Другое дело – когда речь идет об огромном корпусе текстов, в котором миллионы слов. Тогда хорошо продуманная машинная предобработка может сэкономить десятки, а то и сотни часов труда исследователей. Пример такого корпуса – собрание сочинений Л.Н. Толстого, 90 томов которого содержат 46000 страниц текста – итог долгой и невероятно продуктивной жизни великого писателя.
Аспирант Школы лингвистики Даниил Скоринкин рассказал о подготовке электронного «семантического» издания 90-томника Толстого, которое получит дополнительный машиночитаемый слой и позволит обращаться к тексту с нетривиальными вопросами. Например, посмотреть все реплики того или иного героя, получить список корреспондентов Толстого за определенный год, выстроить в цепочку письма, и даже просто увидеть все случаи, где один участок текста был исправлен и заменен другим (а таких исправлений и вставок у Толстого – десятки тысяч). Возможность получать подобную информацию «в один клик» даст специальная метаразметка, создаваемая в полуавтоматическом режиме и соответствующая международному стандарту TEI (Text Encoding Initiative).
Разумеется, дополнительный информационный слой «поверх» текста может помочь узнать новое не только профессиональным исследователям-филологам. Почти каждый современный читатель сталкивается с незнакомыми словами при чтении русской классики. Что такое брульон? Где служит фурштатский солдат? Как будут ехать лошади, если их запрячь цугом? Программа, которую представила Любовь Полянская, студентка 2 курса бакалавриата, призвана автоматически выявлять редкие или вышедшие из употребления слова и порождать к ним разъясняющие комментарии.
А может ли компьютер сам справляться со сложными аналитическими задачами вроде датировки художественных произведений? Ответить на этот вопрос попытался студента 3 курса бакалавриата Алексей Агапов. Он представил результаты работы по автоматическому определению даты написания литературного произведения. Его программа с небольшими погрешностями идентифицировала даты написания нескольких переводов Гамлета на русский язык. Сильное расхождение с настоящей датировкой выявилось лишь в одном случае, где переводчик намеренно стилизовал текст «под старину».
Многие знаменитые литературоведы задумывались о связи между метрикой стихотворения и его темой: если перед нами стихотворение, написанное трехстопным анапестом с женской клаузулой, то, вероятнее всего, оно о любви? или о смерти? или это поздравление на юбилей?.. Эльмира Мустакимова, студентка 3 курса бакалавриата, решила помочь коллегам-филологам и написала программу, которая вычленяет из стихотворений ключевые слова, собирает их в семантический ореол (для каждого метра он свой). Специалист может проанализировать такие «облака» слов и найти общую для какого-либо метра тему, кочующую из стихотворения в стихотворение.
Одна из самых «скандальных» тем в современном литературоведении – определение авторства текста. В спорах о том, кто же написал «Тихий дон», «Гамлета» и «Илиаду», сломано больше копий, чем во всех битвах Троянской войны. На эту опасную территорию решилась зайти Мария Объедкова, студентка 2 курса бакалавриата. В своем исследовании Мария выяснила, какие свойства текстов позволяют говорить о том, что они принадлежат перу одного человека.
Разумеется, на филологической конференции не обошлось без разговора о том, что называется моднымсловом «интертекстуальность». Переклички между произведениями, ссылки одного автора на другого, скрытые и явные цитаты – все это давно относится к магистральным темам литературоведения. Наталия Тышкевич, студентка 4 курса бакалавриата, поделилась результатами своей дипломной работы, посвященной автоматическому определению цитат в тексте. Материалом для исследования послужили несколько литературных журналов. Во время доклада слушатели смогли проверить память и эрудицию, вспоминая авторов наиболее часто цитируемых строк.
После успешного выступления у лингвистов была возможность пообщаться с филологами (и не только) в неформальной обстановке – прогуливаясь по зеленеющим паркам и холмам весеннего Тарту, обедая в мрачном старинном «пороховом погребе», а также сидя на берегу Эмайыги с вином и мандаринами. В такой обстановке неудивительно, что коллектив участников и слушателей конференции единогласно решил следовать заветам кота Леопольда и жить дружно.
Любовь Полянская,
студентка второго курса бакалавриата
Школы лингвистики
Даниил Скоринкин,
аспирант Школы лингвистики