• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
История стиховедения и формализм

Орехов Б. В.

Слово.ру: балтийский акцент. 2024. Т. 15. № 4. С. 147-157.

Глава в книге
The Parallel Corpus of Russian and Ruska Romani Languages

Koncha K., Куканова А. Д., Kazakova T. et al.

In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Интервью с сотрудниками Лаборатории учебных корпусов

Прошло три года со времени образования Научно-учебной лаборатории учебных корпусов, объединившей работу нескольких региональных кампусов ВШЭ. Об истории лаборатории и ее текущей работе рассказали сотрудники и стажеры.

Интервью с сотрудниками Лаборатории учебных корпусов

Научно-учебная лаборатория учебных корпусов была организована совместными усилиями факультета гуманитарных наук НИУ ВШЭ-Москва и пермского факультета экономики, менеджмента и бизнес-информатики ВШЭ.

 

С чего все началось? Какие темы и проблемы были первыми, и сколько человек ими занимались?

О.И.Виноградова (Москва):

В 2012 году Андрей Кутузов сделал платформу для корпуса учебных текстов на английском языке. Первые два года мы втроем: Андрей, я и Лиза Кузьменко, – занимались вопросами создания классификации ошибок и их аннотирования. В 2014 году Лиза съездила на воркшоп (или какую-то сезонную школу) при Ассоциации учебных корпусов в Бельгии. В 2015 году мы втроем подали заявку на участие в конференции Corpus Linguistics в Ланкастере с докладом о вычислении формулы согласия аннотаторов. Это было интересно нам, а из присутствовавших на докладе скорее программистам, чем лингвистам. После этого мы регулярно участвовали в международных конференциях по корпусной лингвистике и во всех конференциях Ассоциации учебных корпусов.

Официально лаборатория учебных корпусов возникла из научно-учебной группы REALEC для реальных слов.

REALEC для реальных слов – научно-учебная группа, работавшая с корпусом письменных работ студентов бакалавриата НИУ ВШЭ.  Realec представляет собой первый российский учебный корпус в свободном доступе. Основной вид письменных текстов в корпусе – эссе экзаменационного типа. Первый этап работы с Realec в Школе лингвистики НИУ ВШЭ на протяжении двух лет показал широкие возможности этого корпуса как для студентов и их преподавателей английского языка, так и для лингвистических наблюдений.

Какие проблемы решаются сотрудниками лаборатории теперь? 

О.И.Виноградова:

Мы исследуем коррелятивность параметров сложности текста с другими его характеристиками при использовании различных формул и программ; преобразуем данные параметров в фидбек для авторов учебных текстов и в рекомендации по оцениванию для преподавателей; проводим сравнение автоматизированной разметки ошибок с экспертной разметкой; анализируем автоматически сгенерированные тестовые вопросы с имеющимися стандартизованными тестами; пытаемся увеличить охват ошибок, идентифицируемых моделями, основанными на правилах; увеличиваем эффективность обученной нейросети при ее облегчении; работаем над автоматизированным предсказанием уровня владения языком по письменному тексту.


Как началась и как сложилась Ваша работа в лаборатории?

Д.Матяш, стажер-иследователь:

Для меня все началось только в прошлом году: я просто ходила слушала, что обсуждают в лаборатории, какие цели ставят, что нужно для их достижения и т.д. Затем мне доверили попробовать свои силы в написании модели по нахождению пунктуационных ошибок при вводных словах и фразах. «Набила» руку, узнала много лайфаков от коллег, и понеслось…)

 Я искренне восхищаюсь как своим руководителем, так и всеми своими коллегами: столько разных дел и идей вначале обсуждаются, а потом претворяются в жизнь! Во «времена оффлайна» мне запомнилось, что помимо организации всего нашего процесса Ольга Ильинична еще успевала сделать цукаты к чаю для всех. Обсуждение рабочих вопросов было еще более приятным делом:)
Если говорить серьёзно, то, на мой взгляд, я бы оценивала, насколько с каждым разом каждый «перепрыгивал себя», узнавал и делал больше, тщательнее. Наверное, так.

Матяш Дарья Сергеевна
Научно-учебная лаборатория учебных корпусов: Стажер-исследовател

Сейчас мы делаем разные исследования по нашему корпусу, я лично периодически пишу разные модели по выявлению ошибок студентов в экзаменационных работах; готовлю доклады на темы, смежных с нашей деятельностью, которые могли бы как-нибудь помочь в дальнейшем; подаю заявки на участие в конференциях; в общем, узнаю много нового, учусь и делюсь своими знаниями с другими.

Как началось сотрудничество Перми с московскими коллегами?

Е.А. Смирнова (Пермь): 

Наше сотрудничество с московскими коллегами началось три года назад, когда благодаря конкурсу Золотая Вышка мы узнали, что наши НУГи занимаются схожей проблематикой – разработкой ПО для исследования учебных академических текстов. Мы встретились с Ольгой Ильиничной в Москве и решили попробовать создать совместный проект – научно-учебную лабораторию учебных корпусов. Это была первая распределенная лаборатория в Вышке, и у коллег были вопросы, как мы будем взаимодействовать, находясь в разных кампусах. Сейчас такие вопросы уже не возникают, потому что удаленная коммуникация прочно вошла в нашу жизнь. Мы регулярно проводим совместные семинары в зуме, вместе участвуем в конференциях, готовим совместные публикации.

Какой профиль нужен для работы в лаборатории? Это по большей части компьютерщики? 

О.И.Виноградова:

Важны лингвистические интересы плюс пользование компьютерными инструментами для работы с текстами.

М.А.Климова (Нижний Новгород):

Я присоединилась к НУЛ учебных корпусов только в этом году. Я кандидат филологических наук, во время обучения в вузе я не изучала компьютерную лингвистику и сейчас я лишь начинаю свое знакомство с ней. В работе в НУЛ мне помогают знания в области корпусной лингвистики и опыт преподавания английского языка. Сейчас в команде со студентками Вероникой Смилгой и Дарьей Оверниковой мы начинаем внедрение корпуса REALEC в преподавание английского языка в нашем вузе и исследование этого опыта.

А.Щербакова, стажер лаборатории:

Я компьютерщик, занимаюсь исследованиями на корпусе REALEC с помощью методов машинного обучения. Но в лаборатории есть люди, которые занимаются разметкой. Я провела исследование, которое связано с кластеризацией данных, извлечением ключевых слов и лексическим разнообразием в текстах эссе учебного корпуса. В данный момент я занимаюсь сравнением оценки сложности текста нескольких компьютерных инструментов (это моя дипломная работа).

Д.Матяш, стажер лаборатории:

Мне кажется, важны как теоретики, так и компьютерщики: от того, насколько четко «теоретик» опишет «словами» модель и затем верно разметит получившийся результат для последующей корректировки или финальной загрузки, зависит качество модели, написанной «компьютерщиком».

На каких конференциях Вы выступаете?

А.Щербакова: 

Мои конференции: Казанский международный лингвистический саммит «Вызовы и тренды мировой лингвистики», доклад: Тематическое моделирование данных из учебного корпуса REALEC, Научно-практическая конференция «Межкультурное пространство: лингвистический и дидактический аспекты», доклад: Кластеризация данных, извлечение ключевых слов и лексическое разнообразие в текстах эссе учебного корпуса, Всероссийский семинар «Корпуса и корпусные исследования: практики высших учебных заведений Российской Федерации», доклад: Корпус английских учебных текстов REALEC.

Д.Матяш:

Сейчас только подаю заявки, но прошлым летом, например, принимала участие в конференции TaLC 2020 с докладом на тему Genre is a useful concept only when used evaluately not descriptively.

О.И.Виноградова: 

ДИАЛОГ, EUROCALL, Learner Corpus Research, TaLC.  Думаем о воркшопах BEA и NoDaLiDa.


В каких «единицах» можно измерить сделанное? 

О.И.Виноградова:

В единицах создания компьютерных инструментов для работы в корпусе и с корпусом – их шесть, и в установлении направлений работы в НУЛ (их пять).



С текущей работой лаборатории можно познакомиться не ее веб-странице, а вот одна из последних публикаций НУЛ.

Желаем нашим коллегам дальнейшей плодотворной работы!