• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Школа лингвистики: Менеджер Дьячкова Анна Евгеньевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков

Книга
Китайский разговорник

Дурыманова А. Д., Ермолаева Е. А., Сутулов А. А.

М.: Бомбора, 2025.

Статья
Параллельный корпус переводов «Слова о полку Игореве» как проект

Орехов Б. В.

Цифровые гуманитарные исследования. 2025. № 1. С. 60-69.

Глава в книге
ReText.Ai Team at PAN 2025: Applying a Multiple Classification Heads to a Transformer Model for Human-AI Collaborative Text Classification

Daria I., Konstantin Zaitsev, Olga S.

In bk.: CLEF 2025 Working Notes. Vol. 4038. CEUR Workshop Proceedings, 2025.

Препринт
You shall know a piece by the company it keeps. Chess plays as a data for word2vec models

Orekhov B.

arxiv.org. Computer Science. Cornell University, 2024

Доклад Ольги Ляшевской на научном семинаре Школы лингвистики

3 апреля Ольга Ляшевская выступила с докладом «Компьютер как новый
"несовершенный" носитель языка (на данных корпуса автоматических
расшифровок устной русской речи)».

В последнее время большую популярность приобрели корпуса так

называемых «несовершенных» говорящих, включающие, например, тексты
носителей эритажного языка, ответы на экзамене по иностранному языку,
первые опусы студентов в жанре академического письма или перевода.
Ошибки таких авторов признаны ценным эмпирическим материалом, который
восполняет лакуну negative evidence в корпусной лингвистике и
проливает свет на многие теоретические вопросы.

В докладе Ольги Ляшевской речь шла о корпусе расшифровок устной

речи, полученных с помощью сервиса SpeechKit Cloud (Яндекс) и
снабженных параллельным слоем ручной разметки. Несмотря на
то, что технологии автоматического распознавания активно развиваются,
дополняют акустическую модель параметрами синтаксической,
семантической, доменной и т.п. дистрибуции, полнота и точность
письменной кодировки речевого сигнала все еще далека от идеала. Взяв
за основу параллельные данные автоматической и ручной расшифровки,
О.Ляшевская предложила типологию таких ошибок и показала, как они
помогают нам понять, что же позволяет человеку более точно настраивать
свой аппарат речевого распознавания. Кроме того, обсуждались вопросы
создания корпуса расшифровок, а именно, проблемы выравнивания
параллельных расшифровок (автоматической и ручной) и детекции ошибок.