• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Статья
О цифровой лексикографии

Рахилина Е. В., Плунгян В. А.

Труды института русского языка им. В.В. Виноградова. 2025. № 1(43). С. 360-366.

Глава в книге
Cases of morphosyntactic affinity in North-Eastern Siberia: borrowing, substrata, social settings' influence... or chance?
В печати

Kazakova T., Vinyar A., Бакланов А. Е. et al.

In bk.: Первый Евразийский конгресс лингвистов. Москва, 9–13 декабря 2024: Тезисы докладов. M.: 2025.

Препринт
You shall know a piece by the company it keeps. Chess plays as a data for word2vec models

Orekhov B.

arxiv.org. Computer Science. Cornell University, 2024

Корпус Л.Н. Толстого

 

Руководитель проекта

К.ф. н. А. А. Бонч-Осмоловская

 

Участники проекта

М. С. Картышева

М. В. Кузнецова

Е. Ю. Сидорова

 

         Корпус основан на 90-томном собрании сочинений Л. Н. Толстого, единственном полном собрании сочинений на данный момент. Первое собрание сочинений Л. Н. Толстого издавалось в течение 30 лет: с 1928 по 1958 гг. Инициатива издания текстов Толстого принадлежит его жене С. А. Толстой. Собрание сочинений состоит из 91 тома, последний 91-й том – вспомогательный том с указателями ко всем томам. Из приблизительно 3 тысяч печатных листов 500 листов составляют примечания к текстам.


        В 2013 году компания ABBYY Lingvo совместно с Государственным музеем Л. Н. Толстого запустила краудсортинговый проект «Весь Толстой в один клик» с целью оцифровки ПСС Толстого. Сейчас собрание сочинений доступно для бесплатного скачивания на сайте tolstoy.ru.

        Корпус будет доступен на сайте Национального корпуса русского языка.

        Впервые Корпус был представлен в апреле 2014 года на I Международной научно-практической конференции «Корпусные технологии и компьютерные методы в современной гуманитарной науке». М. Картышева и Е. Сидорова выступили с докладом «Авторский корпус: проблемы и перспективы».


Основные этапы работы над Корпусом:


1. Транслитерация текстов Л. Н. Толстого, создание транслитератора.

Часть текстов, не только личные записи, черновики, наброски, но и сами произведения, особенно опубликованные впервые, представлены в собрании сочинений в старой, дореформенной, орфографии.  В Корпусе такие тексты сопровождаются «переводом» в новую орфографию. Поиск будет возможен как по новой, так и по старой орфографии.

С основными правилами транслитерации можно ознакомиться по ссылке. Эти правила реализованы в транслитераторе. Его исходный код можно посмотреть здесь. Сам транслитератор включает специфические особенности издания Толстого (например, в текстах 90-томника встречаются слова/часть слов в квадратных скобках:  вечер[омъ]), однако так же хорошо он работает и с любыми другими текстами в старой орфографии. Сейчас он представляет собой самостоятельный инструмент. Транслитерировать возможно как введенные вручную тексты, так и файлы в формате .txt и xml (.html, .xhtml). Дальнейшая работа над транслитератором заключается в создании «обратного» - из новой орфографии в старую - транслитератора, а также в улучшении правил транслитерации и функциональности имеющегося веб-интерфейса. 

           Авторская орфография (написание прописных и строчных букв, слитное/раздельное/дефисное написание слов, двойные согласные) в Корпусе остаются без изменений.

     2.     Создание таблицы, содержащей метаинформацию о текстах Толстого (метатаблица).

Каждый текст Толстого должен сопровождаться метаинформацией (см. отдельный файл). Эта информация о текстах представлена в виде сводной таблицы. На второй вкладке таблицы можно найти выверенные 30 томов писем Толстого с названиями уже нарезанных файлов.

Информация в таблице заполнялась в соответствии с комментариями, примечаниями и другими редакторскими пояснениями к каждому тому ПСС. В таблице представлена информация о 12 тысячах текстов Л. Н. Толстого, из них 9 тысяч – это письма.

Сейчас таблица заполнена полностью, кроме пункта о типе орфографии в тексте. Этот столбец будет заполнен автоматически после нарезки файлов. В оригинальной таблице не отражено деление произведений на части, что также будет уточнено после автоматической нарезки томов ПСС.

В дальнейшем планируется ввести дополнительный параметр текста – «язык, на котором написано произведение». Так, например, «Война и мир» будет содержать помету «французский, немецкий, английский, итальянский, латинский». Характеризовать текст с позиции этого параметра предполагается автоматически

 

     3.     «Нарезка» томов ПСС.

«Нарезка» томов ПСС на тексты-документы заключалась не просто в механическом разрезании файлов и присвоении им имени, а в отделении толстовского текста от нетолстовского, ведь примечания и комментарии редакторов можно найти не только в начале и конце каждого тома, но и в середине, конце произведений.

В процессе подготовки Корпуса был принят ряд принципиальных решений, связанных с нарезкой документов: 

-      Художественные и публицистические тексты, если они имеют рубрикацию (поделены на разделы, главы и т.д.), публикуются в соответствии с этой рубрикацией. Например, «Соединение и перевод четырех Евангелий» войдет в Корпус как 105 самостоятельных фрагментов («Предисловие к первому изданию», «Вступление», «Введение» и др.).

-       Дневники и записные книжки представлены в 90-томнике как отдельные тетради за определенный период. В таком же виде они будут загружены и в Корпус.

-       Письма публикуются по отдельности.

-      Все варианты, черновики, наброски, планы и конспекты произведений также включаются в Корпус. Даже «Азбука» Толстого, кроме фрагментов, не содержащих непосредственно текст, будет доступна в Корпусе.

 

Описание основных этапов нарезки томов, инструкция нарезки, ТЗ для продолжения работы и все необходимые скрипты доступны по ссылке.


Все скрипты доступны по ссылке

Готовые нарезанные тексты-документы представлены в папке.

Оригинальные тома ПСС в формате xhtml можно найти здесь.