Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Антопольский А. Б., Бонч-Осмоловская А. А., Бородкин Л. И. и др.
Сибирский федеральный университет, 2023.
Proceedings of the Institute for System Programming of the RAS. 2024.
In bk.: Proceedings of the 2023 CLASP Conference on Learning with Small Data (LSD). Gothenburg: Association for Computational Linguistics, 2023. P. 167-175.
Chistyakova K., Kazakova Tatiana.
Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.
Начало мероприятия. Организаторы совершенно не волнуются, что из этого выйдет.
На выбор участникам предлагался массив статей региональной прессы, корпус дневниковых записей с XVIII по XXI века, богатый набор кинотропов с сайта TV Tropes. А еще были тысячи принтов футболок, коллекция мемов и огромное количество метаданных фанфиков по вселенной Гарри Поттера.
Уже за несколько дней до хакатона стало понятно, что 17 января будет жарко: желающих участвовать оказалось так много, что регистрацию пришлось закрыть досрочно. В чат к тому моменту добавился 130-й желающий. В итоге на старт вышло б олее 80 участников, разделившихся на 33 команды (включая несколько «волков-одиночек»). После небольшого приветствия и презентации датасетов команды подключились к чатам выбранных тем, и процесс пошел.
Предельно серьезный настрой участников.
Перед участниками не стояло четких задач, кроме одной: получить максимум удовольствия от совместной работы с данными. « Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, просидевших два месяца на самоизоляции », предположили организаторы, подбросив к каждому датасету несколько возможных тем для исследований. Но участники просидели на изоляции гораздо дольше – и с удовольствием дали волю собственным творческим силам.
Тот Кого-Нельзя-Называть осознает, что с ним сделали фикрайтеры.
В онлайн-формате у каждой команды оказалась своя стратегия работы. Кто-то созванивался и бурно обсуждал идеи в зуме, кто-то дружно редактировал гуглдоки. Были и те, кто в нескольких строках Телеграм-сообщения договорился об идее, распределил задачи и впервые увиделся с товарищами уже на презентации.
Привычная удаленка оказалась отличным способом объединить людей, которые вряд ли встретились бы в обычной жизни. Дружелюбие и скорее командный, чем соревновательный, дух хакатона побуждали людей формировать команды примерно так: «Привет, я социолог, у меня есть идеи». – «Супер, я программист, давай с идеями ко мне».
Командообразование в прямом эфире.
Разный бэкграунд, несопоставимый уровень участников в программировании – от полных новичков до разработчиков – все это не только не помешало, но даже как будто подстегнуло работу. Любой, кто не умел, но очень хотел что-то сделать с данными, просто писал в чат – и как правило вскоре уже благодарил: «Получилось!».
Работа над проектами длилась восемь часов, причем по ощущениям это было катастрофически мало. Некоторые участники потом делились: процесс захватил их так, что не возникло даже мысли о перерыве. До этапа презентации добралась 21 команда. Интересно, что во время первых осуждений датасетов самые активные разговоры велись о мемах, но среди итоговых проектов абсолютным фаворитом (почти треть всех работ) стал датасет «дневниковые записи».
Частота упоминаний «лошадиных» профессий.
Несмотря на мнимую несерьезность половины датасетов, исследования получились разносторонние, иногда достаточно глубокие и оригинальные . Например, одна из команд задалась вопросом: связана ли популярность мема с «неприличностью» его содержания? (нет, не связана, так что люди не так безнадежны, как можно подумать). Другие участники исследовали отражение феминистской повестки в фанфиках (нашли, но это не точно).
Некоторые команды не ограничились исследованием и сделали полноценный прототип продукта. Так, участники, работавшие с кинотропами с сайта TV Tropes, придумывали на их основе рекомендательный алгоритм. Еще одна команда предложила сервис с графиками упоминания медийных персон в СМИ. Любопытные результаты получили экспериментаторы, которые пытались научить компьютер генерировать собственные мемы или «писать» тексты в духе дневниковых записей.
Созданный участниками бот готов культурно пообщаться.
Были и результаты, заставившие улыбнуться, а потом задуматься (прямо как Шнобелевка). Участники так и не пришли к единому мнению: кто такой Сережа, чье имя стало одним из главных топиков дневникового корпуса в начале 20 века? Как принято в таких случаях оговариваться в серьезных научных статьях, «это тема для дальнейших исследований».
Галстуки на мемах встречаются чаще, чем котики.
Победителя выбирали голосованием, каждый участник отдал голос самой запомнившейся презентации. Организаторам этого оказалось мало, и появилось еще несколько номинаций (некоторые с задорными и загадочными названиями – вполне в духе прошедшего состязания).
В итоге хакатон, состоящий из сплошных «впервые», «никогда так не делали» и «неизвестно, что будет» получился добрым и неформальным, при этом драйвовым.
Всем до встречи!
Как оказалось, чтобы отлично провести время вместе и научиться друг у друга полезным вещам, нам не нужны ни ценные призы, ни уютные коворкинги, ни бесплатные печеньки (хотя при возможности, конечно, не откажемся). Нужно немного данных… ну хорошо, много данных, щепотка экспертизы и повод начать – а дальше мы сами.