Russian Learner Translator Corpus

АБB
АБB
АБB

Обычная версия сайта

Наши подразделения и проекты

Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.

Публикации

Книга

Толковый словарь русской разговорной речи. Вып. 6, дополнительный, часть 1: А-И

Жидкова Е. Г., Занадворова А. В., Какорина Е. В. и др.

Ч. 1: А-И. Вып. 6: дополнительный. Институт русского языка им. В.В. Виноградова РАН, 2026.

Статья

Полевые исследования лесного ненецкого языка: экспедиция в Пуровский район 2024 г.

Козлов А. А., Толдова С. Ю., Агичева О. К.

Языки и фольклор коренных народов Сибири. 2026. № 57(1). С. 101-112.

Глава в книге

ВЕСЬ, ВОСВОЯСИ - ВЫПИХНУТЬ

Никишина Е. А.

В кн.: Толковый словарь русской разговорной речи. Вып. 6, дополнительный, часть 1: А-И. Ч. 1: А-И. Вып. 6: дополнительный. Институт русского языка им. В.В. Виноградова РАН, 2026. С. 194-285.

Препринт

An Annotation Scheme and Classifier for Personal Facts in Dialogue
В печати

Zaitsev K.

arxiv.org. Computer Science. Cornell University, 2026

Все публикации

Проект Russian Learner Translator Corpus (Russian LTC) или «Корпус несовершенных переводов» нацелен на создание доступной исследователям коллекции студенческих переводов в направлениях «английский-русский» и «русский-английский». Корпус доступен на сайте http://rus-ltc.org.

Корпус может быть использован для исследований в области переводческих ошибок и вариативности перевода. Он представляет собой набор предложений на русском и английском языках и их переводов. Для большинства оригиналов существует несколько переводов, что отличает Russian LTC от многих других существующих параллельных корпусов.

Мы составляем корпус из студенческих переводов, предоставленных нам российскими университетами. В настоящий момент объём корпуса составляет более миллиона слов, сбор материала продолжается. Запланированный конечный объём — 10 миллионов слов.

Поиск в корпусе можно производить как по оригиналам, так и по переводам. Кроме того, разметка корпуса позволяет уточнять поиск по мета-данным о тексте и о ситуации перевода. Например, вы можете искать слово might в переводах студентов-мужчин ТюмГУ 4 года обучения, получивших оценку 4.

Проект RusLTC стартовал в 2011 году и поддерживается группой компьютерных лингвистов и преподавателей перевода из Высшей Школы Экономики и Тюменского Государственного Университета. Он развивается в рамках проекта «Корпусные технологии в лингвистических и междисциплинарных исследованиях», выполненного в рамках Программы фундаментальных исследований НИУ ВШЭ в 2013-2014 годах. Контент корпуса (оригиналы и переводы, а также мета-данные) доступен под свободной лицензией Creative Commons Attribution-ShareAlike.