• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

По вопросам, связанным с сайтом: portalhseling@gmail.com

Руководство

Руководитель Рахилина Екатерина Владимировна

Заместитель руководителя Ахапкина Яна Эмильевна

Компьютерная лингвистика

Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека, руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up"  - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что  их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции.  В то же время, стало очевидно, что автоматические методы анализа  и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь  и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы. 

Форум по оценке систем автоматической обработки текста

С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

 comparing taggers for Russian (DOCX, 26 Кб)


Статьи:

Sorokin A., Шаврина Т. О., Lyashevskaya O., Fenogenova A., Alexeeva S., Грановский Д. MorphoRuEval-2017: an evaluation track for the automatic morphological analysis methods for Russian., in: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" Proceedings / Ed. by В. Селегей. Vol. 1. Issue 16 (23), 2017. P. 298-313.

Lyashevskaya O., Bocharov V., Sorokin A., Шаврина Т. О., Granovsky D., Alexeeva S. Text collections for evaluation of Russian morphological taggers // Jazykovedny Casopis. 2017. Vol. 68. No. 2. P. 258-267.

Smirnov I. V., Kuznetsova R., Kopotev M., Khazov A., Lyashevskaya O., Ivanova L., Kutuzov A. B. Smirnov, Ivan, Rita Kuznetsova, Mikhail Kopotev, Andrey Khazov, Olga Lyashevskaya, Lyubov Ivanova, Andrey Kutuzov Evaluation Tracks on Plagiarism Detection Algorithms for the Russian Language // Компьютерная лингвистика и интеллектуальные технологии. 2017. Vol. 1. No. 16. P. 271-283.

Разработка русского ворднета YET ANOTHER RUSSIAN NET

А.А. Бонч-Осмоловская, Д.А. Алексеевский

Нейронные языковые модели в дистрибутивной семантике

Андрей Кутузов

Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели. Узнать больше...

Транслитератор для языка идиш

Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

ВИДЕО сотрудников Школы лингвистики:

Борис Иомдин — «Компьютер и словарь: незнакомцы, конкуренты, друзья?» (Лекторий Политехнического музея и Институт лингвистики РГГУ)

НЕКОТОРЫЕ ПУБЛИКАЦИИ:

Статьи:

2018

Droganova К., Lyashevskaya O. Cross-tagset parsing evaluation for Russian, in: Digital Transformation and Global Society Third International Conference, DTGS 2018, St. Petersburg, Russia, May 30 –June 2, 2018, Revised Selected Papers, Part I / Ed. by Daniel A. Alexandrov, A. V. Boukhanovsky, A. V. Chugunov, Y. Kabanov, O. Koltsova. Issue 858. Cham : Springer, 2018. P. 380-390.

Droganova К., Lyashevskaya O., Zeman D. Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks, in: Proceedings of TLT 2018 International Workshop on Treebanks and Linguistic Theories, 13-14 November 2018, Oslo, Norway. NEALT Proceedings Series. 2018. P. 52-65.

2017

Лопухин К. А., Iomdin B. L., Lopukhina A. Word Sense Induction for Russian: Deep Study and Comparison with Dictionaries // Компьютерная лингвистика и интеллектуальные технологии. 2017. Vol. 1. No. 16. P. 121-134.

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2017 (в печати)

2016

Krylova I., Orekhov B., Stepanova E., Zaydelman L. Languages of Russia: Using Social Networks to Collect Texts, in: Information Retrieval. 9th Russian Summer School, RuSSIR 2015, Saint Petersburg, Russia, August 24-28, 2015, Revised Selected Papers / Ed. by P. Braslavski, P. Markov, Y. Volkovich, D. I. Ignatov, S. Koltsov, E. Y. Koltcova, P. M. Pardalos. Vol. 573. Switzerland : Springer International Publishing, 2016. P. 179-185. 

Kutuzov A. B., Kuzmenko E., Marakasova A. Exploration of register-dependent lexical semantics using word embeddings, in: Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH). Osaka :, 2016. P. 26-34.

Lyashevskaya O., Droganova K., Zeman D., Alexeeva M. A., Гаврилова Т. С., Мустафина Н. С., Шакурова Е. И. Universal Dependencies for Russian: A New Syntactic Dependencies Tagset / NRU HSE. Series WP BRP "Linguistics". 2016. No. 44. Lyashevskaya O., Kashkin E. Welcome to the club: Designing the inventory of semantic roles for adjectives // Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 440-454.

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв. // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2016. Т. 47. № 2. С. 7-25.

Krylova I., Orekhov B., Stepanova E., Zaydelman L. Languages of Russia: Using Social Networks to Collect Texts, in: Information Retrieval. 9th Russian Summer School, RuSSIR 2015, Saint Petersburg, Russia, August 24-28, 2015, Revised Selected Papers / Науч. ред.: P. Braslavski, P. Markov, Y. Volkovich, D. I. Ignatov, S. Koltsov, E. Y. Koltsova, P. M. Pardalos. Vol. 573. Switzerland : Springer International Publishing, 2016. P. 179-185.

Starostin A. S., Bocharov V. V., Alexeeva S. V., Bodrova A. A., Chuchunkov A. S., Dzhumaev S. S., Efimenko I. V., Granovsky D. V., Khoroshevsky V. F., Krylova I. V., Nikolaeva M. A., Smurov I. M., Toldova S. Y. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian, in: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2016) / Под общ. ред.: В. Селегей. М. : Изд-во РГГУ, 2016. P. 688-705.

Toldova S., Ionov M. Mention Detection for Improving Coreference Resolution in Russian Texts: A Machine Learning Approach // Computacion y Sistemas. 2016. Vol. 20. No. 4

Перова Д. М., Бондаренко К. Е., Добрушина Н. Р. База данных для исследования вариативности твердых/мягких согласных перед е в заимствованных словах // В кн.: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2016) / Под общ. ред.: В. Селегей. М. : Изд-во РГГУ, 2016. С. 528-539.

2015

Алексеева С. В., Слюсарь Н. А., Чернова Д. А. StimulStat: база данных,охватывающая различныехарактеристики словрусского языка, важныедля лингвистическихи психологических исследований // В кн.: Материалы 21-й Международной конференции по компьютерной лингвистике "Диалог". М. : Изд-во РГГУ, 2015.

Бонч-Осмоловская А. А. Квантитативные методы в диахронических корпусных исследованиях: конструкции с предикативами и дативным субъектом // Компьютерная лингвистика и интеллектуальные технологии. 2015. Т. 1. № 14(21). С. 80-95.

Книги

Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. М. : Языки славянской культуры, 2016.

ГРАНТЫ:

Поддержанные заявки по конкурсу Научно-учебных групп (НУГ) 2016 г.

Апресян Валентина Юрьевна. Мультиязыковая база данных синонимов (Теоретические и компьютерные модели) (16-05-0054).

Ляшевская Ольга Николаевна. REALEC для реально необходимых слов (Лексикологические исследования на базе учебного корпуса REALEC) (6-05-0057).

Другие гранты

Грант РГНФ 14-04-12034 «База данных и веб-интерфейс, охватывающие важнейшие психолингвистические характеристики для основного лексического фонда русского языка» (2014-2016 гг.).
Руководитель: Н.А. Слюсарь

Грант РФФИ 15-07-09306 «Стандарты оценки методов автоматического извлечения информации из текстов» (2015-2017). 
Руководитель:  О.Н. Ляшевская

Грант  Deutsche Forschungsgemeinschaft «Digitales philologisch-etymologisches Wörterbuch der altanatolischen Kleinkorpussprachen» (2014-2017).
Руководитель:  Т.А.Архангельский

УЧЕБНЫЕ КУРСЫ по теме исследований (бакалавриат):

 

Автоматическая обработка естественного языка

Обязательный

Анализ данных для лингвистов

По выбору; 3-й курс, 2, 3 модуль

Цифровая грамотность

Обязательный; 1-й курс, 2 модуль

Компьютерная лингвистика

По выбору; 3-й курс, 3 модуль

Компьютерная лингвистика и информационные технологии

Обязательный; 4-й курс, 1-3 модуль

Практикум по проектированию и разработке лингвистических систем и компонентов

Обязательный; 4-й курс, 2 модуль

Программирование и компьютерные инструменты лингвистического исследования

Обязательный; 2-й курс, 1, 2, 4 модуль

Программирование и лингвистические данные

Обязательный; 1-й курс, 1-4 модуль

Программирование (язык Python)

Обязательный

Программирование (язык R)

Обязательный; 3-й курс, 1, 2 модуль

Базы данных

По выбору; 3-й курс, 1, 2 модуль

Базы данных 2

По выбору; 4-й курс, 3 модуль

Научно-исследовательский семинар «Компьютерные методы обучения иностранному языку»

По выбору; 2-й курс, 1, 2 модуль

 

УЧЕБНЫЕ КУРСЫ по теме исследований (магистратура):

Магистерская программа «Компьютерная лингвистика»

Linguistic Data: Quantitative Analysis and Visualisation

По выбору; английский; 1-й курс, 3, 4 модуль 

Базы Данных

По выбору; 1-й курс, 3 модуль

Веб-девелопмент

Обязательный; 2-й курс, 1, 2 модуль

Компьютерная лингвистика

Обязательный; 1-й курс, 1-3 модуль

Математические основания компьютерной лингвистики

По выбору; 1-й курс, 2-4 модуль

Программирование (язык Python)

Обязательный; 1-й курс, 1-4 модуль

Проектирование лингвистических ресурсов и систем

Обязательный; 2-й курс, 1-3 модуль

Проектно-исследовательский семинар «Проектирование лингвистических ресурсов и систем»

Обязательный; 1-й курс, 1-4 модуль

SocialNetworks

По выбору; английский; 2-й курс, 1, 2 модуль

 

Магистерская программа «Лингвистическая теория и описание языка»

Preprocessing of linguistic data in Python

Обязательный; английский; 2-й курс, 1, 2 модуль

Research and Design seminar «Linguistic projects»

Обязательный; английский; 1-й курс, 1-3 модуль

 

Магистерская программа «Русский как иностранный во взаимодействии языков и культур»

Компьютерные инструменты в РКИ

По выбору; русский; 1-й курс, 3, 4 модуль

Цифровые гуманитарные технологии: ресурсы, инструменты, кейсы

По выбору; русский; 1-й курс, 3, 4 модуль