О группе
Проект школы лингвистики ФГН нацелен на разработку методов создания частотного словаря русской поэзии. Основанный на разнообразном материале 11-миллионного Поэтического корпуса Национального корпуса русского языка (НКРЯ), такой лексический ресурс должен предоставлять исследователям, преподавателям и учащимся частотную информацию, отражающую структурные и жанровые свойства русской поэзии. Будут разработаны методы построения частотных списков лексики, значимой лексики различных жанров, поэтических форм, временных периодов, а также лексики отдельных авторов. Будут исследованы свойства статистических метрик (ранга, относительных частот, range, коэффициента Жуйяна, ARF, критерия логарифмического правдоподобия, критерия Йенсена-Шеннона и др.).
Создаваемый ресурс позволит облегчить рутинные процедуры статистического анализа, предоставляя инструменты для исследования корреляций различных характеристик поэтического текста. Предлагаемый проект предполагает изучение, тестирование, адаптацию и развитие методов электронной лексикографии и корпусной лингвистики. Задачи проекта включают:
а) адаптацию существующих инструментов автоматической обработки русскоязычных текстов; разметку текстов (морфологическую и синтаксическую разметку, полуавтоматическую аннотацию несловарных слов, акцентуацию, разрешение лексико-грамматической и акцентологической неоднозначности) и пост-валидацию разметки;
б) создание эталонного корпуса со снятой лексико-грамматической неоднозначностью;
в) создание эталонного корпуса с синтаксической разметкой (поэтического трибанка);
г) распознавание рифмованных пар и цепочек;
д) статистические подходы к изучению лексических преференций и ограничений в отношении различных релевантных категорий (метрики, рифмы, позиции в строке и строфе и т. п.);
е) выявление значимой лексики поэтического корпуса (на фоне корпуса прозаических письменных текстов), значимой лексики поэтических подкорпусов различных типов;
ж) исследование поведения различных метрик дисперсии на данных Поэтического корпуса и подкорпусов;
з) исследование проблем лексической продуктивности по данным различных поэтических подкорпусов.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.