Открыт Абазинско-русский параллельный корпус
Официально открыт новый корпус, созданный в Школе лингвистики в рамках проекта по абазинскому языку.
Открыта официальная версия Абазинско-русского параллельного корпуса, созданного в рамках работы проекта «Аспекты грамматики абазинского языка». В основу корпуса легли статьи, опубликованные на сайте международного журнала «Страна Абаза». Это стало возможным благодаря тому, что абазинские тексты на этом сайте нередко сопровождаются и русским соответствием. На сегодняшний день корпус включает 2328 абазинских предложений, которые в сумме содержат 32796 словоупотреблений.
Хотя в отличие от корпуса родственного адыгейского языка, в Абазинско-русском параллельном корпусе невозможен поиск по лексической и грамматической информации и по морфемам, использование специальных символов, замещающих буквы (* - любая последовательность символов включая нулевую, ? – любой ненулевой символ), позволяет находить формы слов и сочетания морфем. Например, скриншот, приведенный ниже, показывает, каким образом можно отыскать последовательность из слова, начинающегося на а- (с большой вероятностью это будет определенный артикль), и слова, включающего сочетание отрицательных префиксов гь- и м-. (Не забудьте при поиске последовательностей словоформ поставить в "Настройках" галочку "Расстояния между словами только как в запросе".)
Точно так же, конечно, можно искать и употребления корней. Так, следующий запрос выдаст нам все слова, в которых встречается последовательность символов абаза - то есть, вероятно, любые встречающиеся в текстах формы этого слова.
Важно, что найденные примеры сопровождаются соответствующим предложением из соответствующего русского текста. Это наверняка поможет анализировать абазинские тексты тем, для кого абазинский язык не является родным и кто не может быть уверен в собственном переводе абазинских предложений. Правда, стоит учитывать, что русский перевод, конечно, не является дословным. Не стоит также и забывать, что письменный язык текстов, вошедших в корпус, порою значительно отличается от устного.
Основным создателем корпуса стала участник проекта Анна Сорокина. При создании корпуса было использовано программное обеспечение, разработанное Тимофеем Архангельским – большим другом участников абазинского проекта, который долгое время работал в НИУ ВШЭ, а ныне является сотрудником Университета Гамбурга.