Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Kazakova T., Vinyar A., Постникова А. Е.
In bk.: 57th Annual Meeting of the Societas Linguistica Europaea. Book of Abstracts. Prt. 3. Helsinki: University of Helsinki, 2024. P. 36-38.
arxiv.org. Computer Science. Cornell University, 2024
О своих достижениях рассказали участники проекта «Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ». В проекте работало девять человек — студенты бакалавриата и магистратуры Школы лингвистики. Все поставленные задачи выполнены, как и ключевая: создан алгоритм более качественной разметки китайских текстов нежели предыдущий.
«Мы хотели улучшить разметку текстов в русско-китайском параллельном корпусе. Так как объем довольно большой, разметка присваивается автоматически. Мы разрабатывали алгоритм, который принимал бы на вход текст на китайском языке, разделял на слова и присваивал каждому PoS-метку и транскрипцию в системе пиньинь. Также планировали выступить с докладами на конференциях и написать статьи о проделанной работе. Всё это нам удалось: улучшили алгоритм (код и документация доступны в репозитории), переразметили весь корпус и выступили с докладами на семи конференциях».
«Проект по разработке Олимпиады по античной культуре стал для восьми участников нашей команды, студентов третьего курса ОП «Античность», испытанием. С одной стороны, неясно было, на какие проекты ориентироваться – прочие российские олимпиады по античности предполагают знание древних языков. С другой – на какую аудиторию мы должны работать? Какие школьники будут готовы участвовать в не самой практичной олимпиаде?
Мы пришли к выводу, что должны создать некоторую информационную среду – небольшие популярные эссе, списки книг, ТОП-ы, которая должна привлекать школьников как старших, так и младших классов (несмотря на то, что на олимпиаде мы ждем преимущественно 6-7 классы), демонстрировать им широту вопросов, которые можно задавать античной культуре, давать выход их интересу и не позволять ему угасать. Сама олимпиада в конечном итоге стала лишь одним из элементов этой системы, пожалуй, даже не самым важным. Кроме того, стало ясно, что стоит разговаривать также и с родителями или учителями нашей аудитории – объяснять им практичность и перспективность интереса к античной культуре.
Конечно, понять это нам удалось не сразу, и сходу произвести огромное количество качественного контента оказалось невозможным – за год нам удалось сделать далеко не всё из того, что мы планировали. Однако с завершением проекта мы не собираемся останавливаться, и надеемся, что в конце этого или начале следующего учебного года проведем олимпиаду, а вскоре начнем размещать те материалы, над которыми работали во время проекта. И работать над олимпиадой мы будем каждый следующий год – в этом году успехом для нас будет, если в нашей олимпиаде примет участие хотя бы несколько десятков человек.
Наш проект долгоиграющий и рассчитан, при удачном стечении обстоятельств, на несколько лет вперед, так что, несмотря на скромные первые результаты, основными плодами проекта можно считать разработанную концепцию олимпиады и первые наброски того, как могли бы выглядеть сама олимпиада, и информационное поле вокруг нее. Надеюсь, скоро нам удастся опробовать их на практике».
Проект «Компьютерные и лингвистические ресурсы для поддержки шугнанского языка», под руководством Степана Михайлова, стажера-исследователя НУЛ по формальным моделям в лингвистике, реализуется девятью студентами Школы лингвистики и Института классического Востока и античности.
«Основной целью проекта было создание компьютерных ресурсов для изучения шугнанского языка и поддержания его витальности. Мы разработали электронную версию «Шугнанско-русского словаря» Д. Карамшоева, автоматический грамматический анализатор, корпус размеченных текстов, а также издали ограниченным тиражом русско-шугнанский и англо-шугнанский разговорник. С этими и другими результатами можно ознакомиться на сайте, который мы планируем существенно обновить, благодаря продолжению поддержки нашего проекта в рамках программы студенческих проектов ФГН».
«Целью нашего проекта было приведение материалов указанного журнала в адекватный машиночитаемый формат и предоставление доступа к ним для проведения гуманитарных и междисциплинарных исследований. Цель осуществляется в несколько этапов. Часть из них заключается в OCR-распознавании и вычитке выпусков журнала от побочных ошибок, другая — в разработке удобного пользовательского интерфейса (веб-сайта), через который пользователи смогут осуществлять следующие функции:
На данный момент создано две версии веб-сайта, тестовая и финальная, с отлаженной работой всех перечисленных функций. Обе версии веб-сайта подключены к базе данных, где хранится корпус. Объем корпуса на данный момент составляет 20 томов, в каждом из которых от 800 до 1100 страниц (~10 мил. словоформ).
На начальном этапе работы над проектом не было ничего, кроме доступа к выпускам журнала "Отечественные Записки" на сайте РНБ. С нуля был выстроен процесс работы, обработаны и вычитаны тома, создана база данных и сайт. Кроме того, на материале очищенных от ошибок выпусков журнала был обучен спеллчекер, программа для автоматического исправления опечаток. Спеллчекер был интегрирован на сайт для удаления простых ошибок и облегчения процесса вычитки.
Данная версия цифрового архива журнала "Отечественные Записки" является результатом огромной работы не только участников студенческой проектной группы (магистры Заковоротная Е.М., Ким Ю. Л. и бакалавры Волошина Е. Ю. и Кудрявцева П. С.), но и колоссальных стараний более 30 волонтеров и корректоров, принявших участие в проекте через Ярмарку Проектов НИУ ВШЭ. Именно благодаря их усилиям была решена одна из главных проблем проекта — вычитка объемных томов литературного журнала и удаление опечаток и побочных символов, возникших в тексте при распознавании. Данный проект имеет большой потенциал для дальнейшего развития как в плане увеличения объема корпуса, так и расширении функционала и возможностей сайта».
У проекта «Патрон, клиент и брокер. Неформальные социальные связи в истории России в XVIII-начале XX в. как фактор ее развития» также много значимых достижений. За время работы команды из девяти человек проведены три научно-исследовательских семинара с историками-специалистами из ЕУСПб и НИУ ВШЭ, участники группы сделали восемь докладов на всероссийских и международных научных конференциях по различным сюжетам истории патрон-клиентских отношений: от анализа отдельных исторических источников до разбора отдельных кейсов из истории регионального управления, придворной жизни и научной жизни, опубликовано пять статей в сборниках РИНЦ.
«Мне кажется, что главными достижениями проекта стали не столько публикации или выступления на конференциях (хотя безусловно это важный показатель KPI), но то, что "старые" темы из политической истории Российской империи заиграли новыми красками перспективности и полноты изучения. Фактически, мы показали на "старом" материале – например, деятельности М. С. Воронцова или внутренней кухне дипломатических представительств при Екатерине II – что при изучении этих исследовательских вопросов очень важно учитывать фактор неформальных связей и патрон-клиентских отношений, неформальных практик управления, которые если и не играли главную роль, то по крайней мере образовывали синтез с формальными практиками управления и связями, с законодательными актами и материалами делопроизводства. Также можно сказать, что своей деятельностью мы "популяризируем" направление исторической науки, занимающееся изучением роли неформальных патрон-клиентских отношений. Думаю, что это главный исследовательский результат проекта. Перспектив у него много, и самая главная – раскрытие новых сюжетов и явлений через призму неформальных связей, постановку новых вопросов в контексте изучения отдельного предмета исследования, а также в планах закончить перевод классического труда по истории патроната Ш. Кеттеринг и издать его в НЛО или издательстве ВШЭ. Нам кажется, что это важно сделать для российской исторической науки, потому что перевод позволит создать или открыть диалог о конвенциональности используемой исследователями терминологии на русском языке, обсудить проблему понятий и договориться о тех базовых принципах их использования, которые есть. Не менее важно также, на наш взгляд, провести научную конференции или семинар, на котором будет возможность обсудить последние результаты исследований практики неформальных связей и методов управления с именитыми российскими учеными и другими студентами, которые занимаются подобными "штудиями"».
Поздравляем всех участников проектных групп с успешным завершением работы
и желаем дальнейших успехов!
Материал подготовила Ирина Глущенко.
Научно-учебная лаборатория по формальным моделям в лингвистике: Стажер-исследователь
Центр академического развития студентов: Менеджер