• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Книга
Verba sonandi : Représentation linguistique des cris d’animaux

Presses Universitaires de Provence, 2017.

Статья
Cкорости речи носителей кубанского диалекта кабардино-черкесского языка: устный дискурс vs. чтения текста

Мороз Г. А.

Томский журнал лингвистических и антропологических исследований. 2017. №  2. С. 9-17.

Глава в книге
Network Dynamics, Plot Analysis: Approaching the Progressive Structuration of Literary Texts
В печати

Fischer F., Göbel M., Kampkaspar D. et al.

In bk.: Digital Humanities 2017 (Montréal, 8–11 August 2017). Book of Abstracts. Montréal: McGill University, 2017.

Компьютерная лингвистика

Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека, руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up"  - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что  их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции.  В то же время, стало очевидно, что автоматические методы анализа  и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь  и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы. 

Форум по оценке систем автоматической обработки текста

С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

 comparing taggers for Russian (DOCX, 26 Кб)

Разработка русского ворднета YET ANOTHER RUSSIAN NET

А.А. Бонч-Осмоловская, Д.А. Алексеевский

Нейронные языковые модели в дистрибутивной семантике

Андрей Кутузов

Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели. Узнать больше...

Транслитератор для языка идиш

Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

ВИДЕО сотрудников Школы лингвистики:

Борис Иомдин — «Компьютер и словарь: незнакомцы, конкуренты, друзья?» (Лекторий Политехнического музея и Институт лингвистики РГГУ)

НЕКОТОРЫЕ ПУБЛИКАЦИИ:

Статьи:

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2017 (в печати)

Starostin A. S., Bocharov V. V., Alexeeva S. V., Bodrova A. A., Chuchunkov A. S., Dzhumaev S. S., Efimenko I. V., Granovsky D. V., Khoroshevsky V. F., Krylova I. V., Nikolaeva M. A., Smurov I. M., Toldova S. Y. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian, in: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2016) / Под общ. ред.: В. Селегей. М. : Изд-во РГГУ, 2016. P. 688-705.

Toldova S., Ionov M. Mention Detection for Improving Coreference Resolution in Russian Texts: A Machine Learning Approach // Computacion y Sistemas. 2016. Vol. 20. No. 4

Kutuzov A. B., Kuzmenko E., Marakasova A. Exploration of register-dependent lexical semantics using word embeddings, in: Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH). Osaka :, 2016. P. 26-34.

Lyashevskaya O., Droganova K., Zeman D., Alexeeva M. A., Гаврилова Т. С., Мустафина Н. С., Шакурова Е. И. Universal Dependencies for Russian: A New Syntactic Dependencies Tagset / NRU HSE. Series WP BRP "Linguistics". 2016. No. 44. Lyashevskaya O., Kashkin E. Welcome to the club: Designing the inventory of semantic roles for adjectives // Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 440-454.

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2016. Т. 47. № 2. С. 7-25.

Krylova I., Orekhov B., Stepanova E., Zaydelman L. Languages of Russia: Using Social Networks to Collect Texts, in: Information Retrieval. 9th Russian Summer School, RuSSIR 2015, Saint Petersburg, Russia, August 24-28, 2015, Revised Selected Papers / Науч. ред.: P. Braslavski, P. Markov, Y. Volkovich, D. I. Ignatov, S. Koltsov, E. Y. Koltsova, P. M. Pardalos. Vol. 573. Switzerland : Springer International Publishing, 2016. P. 179-185.

Перова Д. М., Бондаренко К. Е., Добрушина Н. Р. База данных для исследования вариативности твердых/мягких согласных перед е в заимствованных словах // В кн.: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2016) / Под общ. ред.: В. Селегей. М. : Изд-во РГГУ, 2016. С. 528-539.

2015

Алексеева С. В., Слюсарь Н. А., Чернова Д. А. StimulStat: база данных,охватывающая различныехарактеристики словрусского языка, важныедля лингвистическихи психологических исследований // В кн.: Материалы 21-й Международной конференции по компьютерной лингвистике "Диалог". М. : Изд-во РГГУ, 2015.

Бонч-Осмоловская А. А. Квантитативные методы в диахронических корпусных исследованиях: конструкции с предикативами и дативным субъектом // Компьютерная лингвистика и интеллектуальные технологии. 2015. Т. 1. № 14(21). С. 80-95.

Книги

Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. М. : Языки славянской культуры, 2016.

ГРАНТЫ:

Поддержанные заявки по конкурсу Научно-учебных групп (НУГ) 2016 г.

Апресян Валентина Юрьевна. Мультиязыковая база данных синонимов (Теоретические и компьютерные модели) (16-05-0054).

Ляшевская Ольга Николаевна. REALEC для реально необходимых слов (Лексикологические исследования на базе учебного корпуса REALEC) (6-05-0057).

Другие гранты

Грант РГНФ 14-04-12034 «База данных и веб-интерфейс, охватывающие важнейшие психолингвистические характеристики для основного лексического фонда русского языка» (2014-2016 гг.).
Руководитель: Н.А. Слюсарь

Грант РФФИ 15-07-09306 «Стандарты оценки методов автоматического извлечения информации из текстов» (2015-2017). 
Руководитель:  О.Н. Ляшевская

Грант  Deutsche Forschungsgemeinschaft «Digitales philologisch-etymologisches Wörterbuch der altanatolischen Kleinkorpussprachen» (2014-2017).
Руководитель:  Т.А.Архангельский

УЧЕБНЫЕ КУРСЫ по теме исследований (бакалавриат):

Компьютерные инструменты лингвистического исследования

Обязательный; 1-й курс, 1 модуль

Программирование (язык Python)

Обязательный; 1-й, 2-й, 4-й курс

Программирование (язык R)

Обязательный; 3-й курс, 3,4 модуль

Программирование для лингвистов

Обязательный; 3-й курс, 1,2 модуль

Methods in Data Collection and Analysis

По выбору; 3-й курс, 1,2 модуль

Автоматическая обработка естественного языка

Обязательный; 3-й курс, 2,3 модуль 4-й курс, 2 модуль

Информационный поиск и извлечение данных

Обязательный; 4-й курс, 1 модуль

Практикум по проектированию и разработке лингвистических систем и компонентов

Обязательный; 3-й курс, 2,3,4 модуль

Автоматическая обработка естественного языка

Обязательный; 3-й курс, 2,3 модуль, 4-й курс, 2 модуль

Информационный поиск и извлечение данных

Обязательный; 4-й курс, 1 модуль

Базы данных

По выбору; 3-й курс, 4-й курс

УЧЕБНЫЕ КУРСЫ по теме исследований (магистратура):

Linguistic data: quantitative analysis and visualisation

Обязательный; 1-й курс, 3-4 модуль

Programming Basics

Адаптационный; 1-й курс, 1-2 модуль

Анализ лингвистических данных: квантитативные методы и визуализация

Обязательный; 1-й курс, 2,3 модуль

Введение в компьютерную лингвистику

Адаптационный; 1-й курс, 1,2 модуль

Веб-девелопмент

Обязательный; 2-й курс, 1,2 модуль

Гуманитарные науки в цифровую эпоху

По выбору; 1-й курс, 2,3 модуль

Компьютерная лингвистика

Обязательный; 1-й курс, 1-3 модуль, 2-й курс, 1,2 модуль

Машинное обучение

Обязательный; 1-й курс, 2,3 модуль

Машинный перевод

По выбору; 1-й курс, 3,4 модуль

Оценка лингвистических систем и компонентов

По выбору; 2-й курс, 1 модуль

Программирование (язык Python)

Обязательный; 1-й курс, 3,4 модуль

Проектирование лингвистических ресурсов и систем

Обязательный; 2-й курс, 1-4 модуль

Цифровые гуманитарные технологии: ресурсы, инструменты, кейсы

По выбору; 1-й курс, 3,4 модуль