Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Koncha K., Куканова А. Д., Kazakova T. et al.
In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.
arxiv.org. Computer Science. Cornell University, 2024
Научно-учебная лаборатория учебных корпусов была организована совместными усилиями факультета гуманитарных наук НИУ ВШЭ-Москва и пермского факультета экономики, менеджмента и бизнес-информатики ВШЭ.
С чего все началось? Какие темы и проблемы были первыми, и сколько человек ими занимались?
О.И.Виноградова (Москва):
В 2012 году Андрей Кутузов сделал платформу для корпуса учебных текстов на английском языке. Первые два года мы втроем: Андрей, я и Лиза Кузьменко, – занимались вопросами создания классификации ошибок и их аннотирования. В 2014 году Лиза съездила на воркшоп (или какую-то сезонную школу) при Ассоциации учебных корпусов в Бельгии. В 2015 году мы втроем подали заявку на участие в конференции Corpus Linguistics в Ланкастере с докладом о вычислении формулы согласия аннотаторов. Это было интересно нам, а из присутствовавших на докладе скорее программистам, чем лингвистам. После этого мы регулярно участвовали в международных конференциях по корпусной лингвистике и во всех конференциях Ассоциации учебных корпусов.
Официально лаборатория учебных корпусов возникла из научно-учебной группы REALEC для реальных слов.
REALEC для реальных слов – научно-учебная группа, работавшая с корпусом письменных работ студентов бакалавриата НИУ ВШЭ. Realec представляет собой первый российский учебный корпус в свободном доступе. Основной вид письменных текстов в корпусе – эссе экзаменационного типа. Первый этап работы с Realec в Школе лингвистики НИУ ВШЭ на протяжении двух лет показал широкие возможности этого корпуса как для студентов и их преподавателей английского языка, так и для лингвистических наблюдений.
Какие проблемы решаются сотрудниками лаборатории теперь?
О.И.Виноградова:
Мы исследуем коррелятивность параметров сложности текста с другими его характеристиками при использовании различных формул и программ; преобразуем данные параметров в фидбек для авторов учебных текстов и в рекомендации по оцениванию для преподавателей; проводим сравнение автоматизированной разметки ошибок с экспертной разметкой; анализируем автоматически сгенерированные тестовые вопросы с имеющимися стандартизованными тестами; пытаемся увеличить охват ошибок, идентифицируемых моделями, основанными на правилах; увеличиваем эффективность обученной нейросети при ее облегчении; работаем над автоматизированным предсказанием уровня владения языком по письменному тексту.
Как началась и как сложилась Ваша работа в лаборатории?
Д.Матяш, стажер-иследователь:
Для меня все началось только в прошлом году: я просто ходила слушала, что обсуждают в лаборатории, какие цели ставят, что нужно для их достижения и т.д. Затем мне доверили попробовать свои силы в написании модели по нахождению пунктуационных ошибок при вводных словах и фразах. «Набила» руку, узнала много лайфаков от коллег, и понеслось…)
Я искренне восхищаюсь как своим руководителем, так и всеми своими коллегами: столько разных дел и идей вначале обсуждаются, а потом претворяются в жизнь! Во «времена оффлайна» мне запомнилось, что помимо организации всего нашего процесса Ольга Ильинична еще успевала сделать цукаты к чаю для всех. Обсуждение рабочих вопросов было еще более приятным делом:)
Если говорить серьёзно, то, на мой взгляд, я бы оценивала, насколько с каждым разом каждый «перепрыгивал себя», узнавал и делал больше, тщательнее. Наверное, так.
Сейчас мы делаем разные исследования по нашему корпусу, я лично периодически пишу разные модели по выявлению ошибок студентов в экзаменационных работах; готовлю доклады на темы, смежных с нашей деятельностью, которые могли бы как-нибудь помочь в дальнейшем; подаю заявки на участие в конференциях; в общем, узнаю много нового, учусь и делюсь своими знаниями с другими.
Как началось сотрудничество Перми с московскими коллегами?
Е.А. Смирнова (Пермь):
Наше сотрудничество с московскими коллегами началось три года назад, когда благодаря конкурсу Золотая Вышка мы узнали, что наши НУГи занимаются схожей проблематикой – разработкой ПО для исследования учебных академических текстов. Мы встретились с Ольгой Ильиничной в Москве и решили попробовать создать совместный проект – научно-учебную лабораторию учебных корпусов. Это была первая распределенная лаборатория в Вышке, и у коллег были вопросы, как мы будем взаимодействовать, находясь в разных кампусах. Сейчас такие вопросы уже не возникают, потому что удаленная коммуникация прочно вошла в нашу жизнь. Мы регулярно проводим совместные семинары в зуме, вместе участвуем в конференциях, готовим совместные публикации.
Какой профиль нужен для работы в лаборатории? Это по большей части компьютерщики?
О.И.Виноградова:
Важны лингвистические интересы плюс пользование компьютерными инструментами для работы с текстами.
М.А.Климова (Нижний Новгород):
Я присоединилась к НУЛ учебных корпусов только в этом году. Я кандидат филологических наук, во время обучения в вузе я не изучала компьютерную лингвистику и сейчас я лишь начинаю свое знакомство с ней. В работе в НУЛ мне помогают знания в области корпусной лингвистики и опыт преподавания английского языка. Сейчас в команде со студентками Вероникой Смилгой и Дарьей Оверниковой мы начинаем внедрение корпуса REALEC в преподавание английского языка в нашем вузе и исследование этого опыта.
А.Щербакова, стажер лаборатории:
Я компьютерщик, занимаюсь исследованиями на корпусе REALEC с помощью методов машинного обучения. Но в лаборатории есть люди, которые занимаются разметкой. Я провела исследование, которое связано с кластеризацией данных, извлечением ключевых слов и лексическим разнообразием в текстах эссе учебного корпуса. В данный момент я занимаюсь сравнением оценки сложности текста нескольких компьютерных инструментов (это моя дипломная работа).
Д.Матяш, стажер лаборатории:
Мне кажется, важны как теоретики, так и компьютерщики: от того, насколько четко «теоретик» опишет «словами» модель и затем верно разметит получившийся результат для последующей корректировки или финальной загрузки, зависит качество модели, написанной «компьютерщиком».
На каких конференциях Вы выступаете?
А.Щербакова:
Мои конференции: Казанский международный лингвистический саммит «Вызовы и тренды мировой лингвистики», доклад: Тематическое моделирование данных из учебного корпуса REALEC, Научно-практическая конференция «Межкультурное пространство: лингвистический и дидактический аспекты», доклад: Кластеризация данных, извлечение ключевых слов и лексическое разнообразие в текстах эссе учебного корпуса, Всероссийский семинар «Корпуса и корпусные исследования: практики высших учебных заведений Российской Федерации», доклад: Корпус английских учебных текстов REALEC.
Д.Матяш:
Сейчас только подаю заявки, но прошлым летом, например, принимала участие в конференции TaLC 2020 с докладом на тему Genre is a useful concept only when used evaluately not descriptively.
О.И.Виноградова:
ДИАЛОГ, EUROCALL, Learner Corpus Research, TaLC. Думаем о воркшопах BEA и NoDaLiDa.
В каких «единицах» можно измерить сделанное?
О.И.Виноградова:
В единицах создания компьютерных инструментов для работы в корпусе и с корпусом – их шесть, и в установлении направлений работы в НУЛ (их пять).
С текущей работой лаборатории можно познакомиться не ее веб-странице, а вот одна из последних публикаций НУЛ.
Желаем нашим коллегам дальнейшей плодотворной работы!
Матяш Дарья Сергеевна
Научно-учебная лаборатория учебных корпусов: Стажер-исследовател