Паспорт проекта
Актуальность исследований
Исследование затрагивает сразу несколько областей, актуальных для современной российской и зарубежной лингвистики. Во-первых, это лексическая типология, получившая в последние годы мощное развитие (ср. проекты Московской лексико-типологической группы под рук. Е.В. Рахилиной, а также исследования группы Института им. Макса Планка в Неймегене и работы А. Вежбицкой и К. Годдарда). Во-вторых, это теоретическая семантика и активная лексикография, в том числе синонимическая (коллективная монография “Языковая картина мира и активная лексикография” под ред. Ю.Д. Апресяна, Новый объяснительный словарь синонимов русского языка, созданный в Секторе теоретической семантики Института русского языка им. В.В. Виноградова РАН). В-третьих, это обширная область этносемантики (А. Вежбицка, И.Б. Левонтина, А.Д. Шмелев, Анна А. Зализняк, И.Л.Микаэлян), посвященная проблемам лингвоспецифичности, ключевым словам и семантическим доминантам разных языков, особенностям языковой картины мира. В первых трех, теоретических, подходах были получены значительные результаты в области описания отдельных слов и некоторых семантических полей в разных языках.
Наконец, это векторные языковые модели, построенные на основе нейронных сетей, которые уже успешно используются во множестве актуальных задач обработки естественного языка, таких как машинный перевод, классификация и кластеризация текстов, определение тональности высказываний и многих других.
Однако попыток применить векторные модели к исследованию синонимии в разных языках пока не предпринималось, хотя такой подход мог бы помочь в автоматизации сбора данных и таким образом создать прецеденты масштабных фронтальных исследований лексики на материале многих языков.
Кроме того, не было попыток применить компьютерные методы к оценке лингвоспецифичности, а частности. выработать статистические критерии оценки лингвоспецифичности слов, а также оценить корреляции между степенью лингвоспецифичности и межъязыковой вариативности, с одной стороны, и трудностью для усвоения при изучении иностранного языка, с другой. Наконец, не делалось попыток применить полученные результаты непосредственно к преподаванию языка методом языковых тренажеров.
Цель и задачи данного исследования
Цель – сравнение моделей лексикализации семантических полей разного уровня абстрактности на материале нескольких европейских языков, сравнение теоретических и статистических методов в установлении отношений синонимии, внедрение результатов в преподавание иностранных языков.
Для достижения целей НУГа необходимо решить следующие задачи:
- Выделение семантических полей для изучения и их ранжирование по степени абстрактности;
- Теоретическое описание семантики синонимов на материале нескольких европейских языков;
- Сравнение теоретических и статистических результатов определения границ, состава и структуры семантических полей;
- Разработка статистических критериев близости синонимов;
- Разработка критериев количественной оценки лингвоспецифичности слов;
- Разработка языковых тренажеров по лексике.
Описание методик, методов исследования и получения научного результата
В исследовании планируется задействовать методики теоретической и компьютерной лингвистики. Для теоретического анализа семантических полей будут применены методы лексической типологии (фреймы и семантические карты), а также методы активной лексикографии - аналитические толкования и семантические признаки. Для компьютерного анализа будут использованы методы векторных семантических моделей.
В качестве объекта исследования будут рассмотрены несколько семантических полей разной степени конкретности внутри основных частеречных категорий - глаголов, существительных, прилагательных. В качестве репрезентативных примеров могут быть приведены поля глаголов со значением движения, света, отношения, существительных со значением сооружений, путей, соответствия действительности, прилагательных со значением толщины, состоятельности и оценки внешности.
Материалом должны послужить репрезентативные по объёму коллекции текстов для русского, одного дополнительного славянского языка (польского) и основных европейских языков (немецкий, французский, итальянский). Предполагается, что в тех случаях, когда в свободном доступе отсутствуют необходимые для исследования материалы, научно-учебная группа соберет их своими силами, взяв за основу размещённые в Интернете тексты на включенном в выборку языке.
Используя существующие фреймворки и библиотеки (Scrapy, urllib2, BeautifulSoup) группа создаст программы, в автоматическом режиме, собирающие текстовые коллекции, на основе которых будут построены статистические и векторные модели лексики.
Новизна и перспективность методологии
Новизна и перспективность применяемой в работе методологии состоит в соединении и сравнении результатов методов теоретической и компьютерной лингвистики в рамках задачи по исследованию границ синонимии в разных языках. Кроме того, предполагается разработать новые - статистические - методы оценки степени лингвоспецифичности слов, которая до этого оценивалась по достаточно интуитивным критериям.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.