Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Максим Олегович Бажуков, Константин Евгеньевич Сатдаров
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Linguistica Uralica. 2025. Vol. 61. No. 2. P. 106-130.
Марченко И. А., Ронько Р. В.
В кн.: Исследования по славянской диалектологии. Выпуск 25. Т. 25. М.: Институт славяноведения РАН, 2025. Гл. 5. С. 236-260.
arxiv.org. Computer Science. Cornell University, 2024

С 10 по 12 сентября в Нижнем Новгороде на территории строительного колледжа проводился очередной этап хакатона по искусственному интеллекту. 16 команд занимались разработкой аналитической системы, позволяющей выявлять и классифицировать возможные коррупциогенные факторы в нормативно-правовых актах Российской Федерации. Целью хакатона являлось сокращение трудозатрат при проведении антикоррупционной экспертизы.
Победителем четвертого хакатона по искусственному интеллекту стала команда «Наносемантика» (Москва). Участники команды: Александр Туманов (студент 1 курса магистратуры НИИ ВШЭ факультета Компьютерной лингвистики, Junior DS Наносемантика), Павел Сухачев (Team Lead DS Наносемантика).
Команда представила алгоритм машинного обучения, который определяет по строке законодательного документа присутствует ли в ней коррупциогенный фактор. Итоговый результат был оформлен в виде веб-сервиса, в который загружается текст закона, а выходом являются фрагменты документа с размеченными коррупциогенными факторами. Среди прочего, победа была достигнута за счет таких особенностей алгоритма, как синтез текста для устранения дисбаланса классов, мета-алгоритм для лучшей разметки датасета, использования бустинга на решающих деревьях, использование active learning при обучении.