• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Совместные с Университетом Хельсинки проекты

«Русский академический, или CAT and kittens» 

Участники: Зевахина Н. А., студенты магистерской программы «Компьютерная лингвистика» НИУ ВШЭ (Москва) 

Руководитель: Михаил Копотев, адъюнкт-профессор Хельсинкского университета (Финляндия, Хельсинки)

Для успешного освоения академического письма необходим сбалансированный корпус «эталонных» текстов, с которым можно сравнивать студенческие работы и давать рекомендации о потенциальных нарушениях требований жанра. Ресурсов НКРЯ для этой цели недостаточно: например, Национальный корпус содержит всего 24 современных документа (после 1945 г.)  по филологическим наукам. Главная задача предлагаемого проекта — создание онлайн-сервиса, который сравнивает студенческий текст (“kitten”) с эталонным представительным корпусом (CAT, Corpus of Academic Texts) и помечает «подозрительные» токены и их сочетания, которые резко отличают студенческий текст от эталонных. 

 

Первая задача (простая) — создание корпуса CAT:

  • выработка критериев отбора текстов
  • выработка структуры метаданных с учетом уже имеющихся на сайтах cyberleninka.ru и elibrary.ru
  • получение текстов (crawling) и метаданных (pageparsing) на основе выработанных критериев 
  • собственно создание корпуса, включая лемматизацию, аннотирование и т.д.

 В результате будет создан корпус «эталонных» академических текстов – он и составит основу для решения главной задачи проекта. 

 

Вторая задача (сложная) — это создание онлайн-сервиса в три этапа:

  • выработка параметров для сравнения текста-kitten относительно корпуса CAT с учетом таких признаков, как длина предложения, частоты знаменательных токенов /n-грам, близость студенческого текста к эталонным по моделям doc2vec / word2vec, вхождение (ключевых) токенов в семантический класс соответствующего тематического домена и др.
  • создание системы сравнения, состоящей из двух шагов
  • а) создание сервиса, который «на лету» определяет для загруженного текста-kitten семантические вектора, n-граммы, лемматизацию и т.д.
  •  б) создание алгоритмов сравнения этих параметров с соответствующим «эталонными». 
  • создание онлайн-сервиса.


Корпус коллокаций "CoCoCo"

Одно из направлений сотрудничества между Школой лингвистики и Хельсинкским университетом – это разработка и создание прикладных ресурсов для обучения русскому языку как иностранному. Под руководством Михаила Копотева и Романа Янгарбера в Хельсинкском университете создан ресурс СoCoCo (Collocations, Colligations, and Corpora), который в компактном и упорядоченном виде представляет информацию о грамматических и синтагматических свойствах отдельных слов русского языка. 

Данный электронный сервис реализует один из базовых принципов лингводидактики: изучение слова не изолированно, а в контексте, т.е. с учетом наиболее вероятного грамматического и лексического окружения. При помощи этого ресурса методисты могут быстро и качественно подбирать реальные примеры употреблений русских слов и конструкций и использовать их как иллюстративный материал и основу для разработки тренажёров. Ресурс CoCoCo полезен и для студентов, которые могут проверять сочетаемость слов при выполнении домашнего задания и создании собственных текстов на русском языке. 

Одним из источников примеров стал Национальный корпус русского языка, разработанный при участии профессоров Школы лингвистики Е. В. Рахилиной и О. Н. Ляшевской.  В проекте  СоСоСо также участвует доцент департамента компьютерных исследований ВШЭ Эдуард Клышинский.

Успех данного проекта обеспечен не только активным международным и междисциплинарным сотрудничеством опытных специалистов, но и привлечением к разработке технической части начинающих исследователей. В создании и развитии ресурса CoCoCoактивно участвовали не только аспиранты Хельсинкского университета, но и магистранты и выпускники Отделения компьютерной лингвистики НИУ ВШЭ — Елизавета Кузьменко, Любовь Иванова и Наталья Кочеткова. 

Познакомиться с ресурсом можно на сайте: http://cococo.cosyco.ru/about.html

 

Русский учебный корпус

Руководители:

А. Никунласси, профессор Отделения современных языков, Хельсинкский университет, Финляндия

Е.Ю. Протасова, доцент Отделения современных языков, Хельсинкский университет, Финляндия

Е.В. Рахилина, профессор Школы лингвистики, Высшая школа экономики, Москва

 

Исследователи-разметчики: 

Е. А. Власова, старший преподаватель Школы лингвистики, Высшая школа экономики, Москва

М. Хокканен, докторант Отделения современных языков, Хельсинкский университет, Хельсинки


В 2015 г. во время конференции «Русский язык в многоязычном мире» состоялся круглый стол, на котором обсуждались проблемы преподавания русского языка в зарубежных университетах, в частности – особой категории русскоговорящих студентов, представителям русскоязычных диаспор, которые выросли вне России и вне российской системы образования, при этом выучили русский язык через естественную коммуникацию в близком кругу. Такие студенты регулярно поступают на отделения русского языка и литературы зарубежных университетов, и довольно часто сложившиеся методики оказываются не готовы к обучению таких нестандартных носителей, поскольку русский язык не является для них иностранным, однако методика русского как родного также оказывается бессильной перед влиянием доминантного языка и недоосвоенностью некоторых явлений словаря и грамматики. 

В Хельсинкском университете собраны две коллекции студенческих эссе. Одна из них содержит тексты, написанные русскими студентами, с детства говорящими на русском и финском языках. В другой коллекции собраны эссе, созданные финскими студентами, изучавшими русский язык как иностранный и достигшими продвинутого уровня владения. Поступив на Отделение русского языка, студенты оказались в одном образовательном окружении, и данная ситуация позволяет проводить адекватное сравнение их текстов и — что самое интересное — аномальных слов, форм и конструкций, свидетельствующих о том, какие сегменты языка оказываются недоосвоенными при разных способах изучениях языка у нестандартных носителей с доминантным финским. 

Во время круглого стола стало понятно, что в Школе лингвистики уже создан электронный инструмент «Русский учебный корпус», при помощи которого возможно проводить унифицированную разметку аномалий (в наивной картине мира «ошибок») и их сопоставление, основанное на корпусно-информированных методах и  количественном анализе. 

Так было положено начало очередному совместному проекту Школы лингвистики и Хельсинкского университета, в котором одна сторона предоставляет материал для анализа, а другая – компьютерный инструмент. Исследование выполняют аспирантка Хельсинкского университета Мария Хокканен и старший преподаватель Школы лингвистики Екатерина Власова. Оба исследователя владеют русским и финским языками.

Проект состоит из нескольких этапов, часть которых уже преодолена: 

  • 2015 г. – круглый стол, улаживание формальностей и формирование команды проекта
  • 2016 г. – загрузка материала в базу 
  • 2017 г. – первичная разметка
  • 2018 г. – вторичная разметка, лингвистический и количественный анализ, первые публикации