Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Вопросы языкознания. 2025.
Pozdnyakov V., Makarov I., Maksim Kazadaev.
In bk.: Proceedings of the IEEE/IAFE Computational Intelligence for Financial Engineering (CIFEr-24). IEEE, 2024. P. 1-7.
arxiv.org. Computer Science. Cornell University, 2024
13 ноября 2021 года в 11:00 стартовал четвёртый по счёту хакатон, организованный и проведённый на базе Центра цифровых гуманитарных исследований НИУ ВШЭ. Более десяти команд попробовали свои силы в программировании, анализе данных, визуализации и машинном обучении на разнообразном наборе датасетов. Данные действительно были всякие: корпус эволюции законопроектов между чтениями в Госдуме; оцифрованная коллекция почтовых открыток «Пишу тебе», предоставленная интернет-изданием “Системный Блокъ”; корпус дневниковых записей, собранный проектом «Прожито»; тексты о врачах от НИИ здравоохранения и медицинского менеджмента ДЗМ г. Москвы; коллекция мемов с сайта imgflip и корпус интервью проекта «Народная история России».
Это уже второй хакатон, проведённый в онлайн-формате. Как показывает практика, онлайн не только не помешал коммуникации, но и расширил горизонты. Участники были самого разного возраста и представляли множество организаций из разных городов: были как первокурсники-бакалавры из Школы лингвистики, так и аспиранты-программисты; участники подключались из Москвы, Перми, Самары, Казани и даже Тувы. Некоторые участники объединились в команды заранее, кто-то предпочёл работать в одиночестве, а кто-то нашёл себе команду прямо на месте.
Перед командами стояло множество задач, варьирующихся в зависимости от датасета. В основном это были задачи, поставленные самими участниками, но были и предложенные организаторами. Команды, работающие с датасетом о врачах, должны были собрать информацию об образе медицинского работника в соцсетях и по возможности предложить возможности его поддержания и улучшения.
Те, кто работал с открытками, заинтересовались корреляцией между геоданными и содержанием.
Исследователи мемов и дневников провели частотную аналитику текстов своих корпусов, а команды “Народной истории России” заинтересовались историей исчезнувших географических объектов и сконструировали социокультурную модель Москвы.
Самым популярным оказался датасет законопроектов; исследователи определяли взаимосвязь между темой закона и скоростью его принятия, отслеживали корреляцию между активностью депутата и его шансами быть избранным повторно и даже обучили свой генератор законопроектов.
В основном исследования проводились с помощью языка программирования Python, но использовали и R, и Excel, и даже Word.
В конце хакатона участники представили результаты своей работы на общей зум-встрече. Хакатон успешно завершили десять команд и три исследователя-одиночки. Мы узнали много нового: например, что самые активные отправители и получатели открыток в России живут в южных регионах.
Оказалось, что самым популярным мемом за последние 10 лет является “ну тот, где офисного работника выкидывают из окна”; что больше всего исчезнувших объектов находится в центре Москвы; что активных депутатов не всегда переизбирают; что о врачах часто говорят в религиозном контексте...
Мы узнали, что в большинстве районов Москвы жители часто обсуждают места отдыха, а кому-то даже удалось пособирать покемонов с помощью анализа дневников.
Несмотря на упорную работу, общая атмосфера на хакатоне оставалась дружелюбной и ненапряженной. Участники поддерживали друг друга, и уже выступившие команды часто с удовольствием оставались послушать других. Хакатон чуть-чуть не дотянул до полуночи, продлившись 12 часов и 50 минут.
Большое спасибо всем огранизаторам и участникам хакатона, а также организациям, предоставившим данные для анализа!