• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О группе

Проект школы лингвистики ФГН нацелен на разработку методов создания частотного словаря русской поэзии. Основанный на разнообразном материале 11-миллионного Поэтического корпуса Национального корпуса русского языка (НКРЯ), такой лексический ресурс должен предоставлять исследователям, преподавателям и учащимся частотную информацию, отражающую структурные и жанровые свойства русской поэзии. Будут разработаны методы построения частотных списков лексики, значимой лексики различных жанров, поэтических форм, временных периодов, а также лексики отдельных авторов. Будут исследованы свойства статистических метрик (ранга, относительных частот, range, коэффициента Жуйяна, ARF, критерия логарифмического правдоподобия, критерия Йенсена-Шеннона и др.).

Создаваемый ресурс позволит облегчить рутинные процедуры статистического анализа, предоставляя инструменты для исследования корреляций различных характеристик поэтического текста. Предлагаемый проект предполагает изучение, тестирование, адаптацию и развитие методов электронной лексикографии и корпусной лингвистики. Задачи проекта включают:

а) адаптацию существующих инструментов автоматической обработки русскоязычных текстов; разметку текстов (морфологическую и синтаксическую разметку, полуавтоматическую аннотацию несловарных слов, акцентуацию, разрешение лексико-грамматической и акцентологической неоднозначности) и пост-валидацию разметки;

б) создание эталонного корпуса со снятой лексико-грамматической неоднозначностью;

в) создание эталонного корпуса с синтаксической разметкой (поэтического трибанка);

г) распознавание рифмованных пар и цепочек;

д) статистические подходы к изучению лексических преференций и ограничений в отношении различных релевантных категорий (метрики, рифмы, позиции в строке и строфе и т. п.);

е) выявление значимой лексики поэтического корпуса (на фоне корпуса прозаических письменных текстов), значимой лексики поэтических подкорпусов различных типов;

ж) исследование поведения различных метрик дисперсии на данных Поэтического корпуса и подкорпусов;

з) исследование проблем лексической продуктивности по данным различных поэтических подкорпусов.

 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.