Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Рахилина Е. В., Плунгян В. А.
Труды института русского языка им. В.В. Виноградова. 2025. № 1(43). С. 360-366.
Kazakova T., Vinyar A., Бакланов А. Е. et al.
In bk.: Первый Евразийский конгресс лингвистов. Москва, 9–13 декабря 2024: Тезисы докладов. M.: 2025.
arxiv.org. Computer Science. Cornell University, 2024
Руководитель проекта
К.ф. н. А. А. Бонч-Осмоловская
Участники проекта
М. С. Картышева
М. В. Кузнецова
Е. Ю. Сидорова
Корпус основан на 90-томном собрании сочинений Л. Н. Толстого, единственном полном собрании сочинений на данный момент. Первое собрание сочинений Л. Н. Толстого издавалось в течение 30 лет: с 1928 по 1958 гг. Инициатива издания текстов Толстого принадлежит его жене С. А. Толстой. Собрание сочинений состоит из 91 тома, последний 91-й том – вспомогательный том с указателями ко всем томам. Из приблизительно 3 тысяч печатных листов 500 листов составляют примечания к текстам.
В 2013 году компания ABBYY Lingvo совместно с Государственным музеем Л. Н. Толстого запустила краудсортинговый проект «Весь Толстой в один клик» с целью оцифровки ПСС Толстого. Сейчас собрание сочинений доступно для бесплатного скачивания на сайте tolstoy.ru.
Корпус будет доступен на сайте Национального корпуса русского языка.
Впервые Корпус был представлен в апреле 2014 года на I Международной научно-практической конференции «Корпусные технологии и компьютерные методы в современной гуманитарной науке». М. Картышева и Е. Сидорова выступили с докладом «Авторский корпус: проблемы и перспективы».
Основные этапы работы над Корпусом:
1. Транслитерация текстов Л. Н. Толстого, создание транслитератора.
Часть текстов, не только личные записи, черновики, наброски, но и сами произведения, особенно опубликованные впервые, представлены в собрании сочинений в старой, дореформенной, орфографии. В Корпусе такие тексты сопровождаются «переводом» в новую орфографию. Поиск будет возможен как по новой, так и по старой орфографии.
С основными правилами транслитерации можно ознакомиться по ссылке. Эти правила реализованы в транслитераторе. Его исходный код можно посмотреть здесь. Сам транслитератор включает специфические особенности издания Толстого (например, в текстах 90-томника встречаются слова/часть слов в квадратных скобках: вечер[омъ]), однако так же хорошо он работает и с любыми другими текстами в старой орфографии. Сейчас он представляет собой самостоятельный инструмент. Транслитерировать возможно как введенные вручную тексты, так и файлы в формате .txt и xml (.html, .xhtml). Дальнейшая работа над транслитератором заключается в создании «обратного» - из новой орфографии в старую - транслитератора, а также в улучшении правил транслитерации и функциональности имеющегося веб-интерфейса.
Авторская орфография (написание прописных и строчных букв, слитное/раздельное/дефисное написание слов, двойные согласные) в Корпусе остаются без изменений.
2. Создание таблицы, содержащей метаинформацию о текстах Толстого (метатаблица).
Каждый текст Толстого должен сопровождаться метаинформацией (см. отдельный файл). Эта информация о текстах представлена в виде сводной таблицы. На второй вкладке таблицы можно найти выверенные 30 томов писем Толстого с названиями уже нарезанных файлов.
Информация в таблице заполнялась в соответствии с комментариями, примечаниями и другими редакторскими пояснениями к каждому тому ПСС. В таблице представлена информация о 12 тысячах текстов Л. Н. Толстого, из них 9 тысяч – это письма.
Сейчас таблица заполнена полностью, кроме пункта о типе орфографии в тексте. Этот столбец будет заполнен автоматически после нарезки файлов. В оригинальной таблице не отражено деление произведений на части, что также будет уточнено после автоматической нарезки томов ПСС.
В дальнейшем планируется ввести дополнительный параметр текста – «язык, на котором написано произведение». Так, например, «Война и мир» будет содержать помету «французский, немецкий, английский, итальянский, латинский». Характеризовать текст с позиции этого параметра предполагается автоматически
3. «Нарезка» томов ПСС.
«Нарезка» томов ПСС на тексты-документы заключалась не просто в механическом разрезании файлов и присвоении им имени, а в отделении толстовского текста от нетолстовского, ведь примечания и комментарии редакторов можно найти не только в начале и конце каждого тома, но и в середине, конце произведений.
В процессе подготовки Корпуса был принят ряд принципиальных решений, связанных с нарезкой документов:
- Художественные и публицистические тексты, если они имеют рубрикацию (поделены на разделы, главы и т.д.), публикуются в соответствии с этой рубрикацией. Например, «Соединение и перевод четырех Евангелий» войдет в Корпус как 105 самостоятельных фрагментов («Предисловие к первому изданию», «Вступление», «Введение» и др.).
- Дневники и записные книжки представлены в 90-томнике как отдельные тетради за определенный период. В таком же виде они будут загружены и в Корпус.
- Письма публикуются по отдельности.
- Все варианты, черновики, наброски, планы и конспекты произведений также включаются в Корпус. Даже «Азбука» Толстого, кроме фрагментов, не содержащих непосредственно текст, будет доступна в Корпусе.
Описание основных этапов нарезки томов, инструкция нарезки, ТЗ для продолжения работы и все необходимые скрипты доступны по ссылке.
Все скрипты доступны по ссылке.
Готовые нарезанные тексты-документы представлены в папке.
Оригинальные тома ПСС в формате xhtml можно найти здесь.