Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.
In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.
arxiv.org. Computer Science. Cornell University, 2024
Начало мероприятия. Организаторы совершенно не волнуются, что из этого выйдет.
На выбор участникам предлагался массив статей региональной прессы, корпус дневниковых записей с XVIII по XXI века, богатый набор кинотропов с сайта TV Tropes. А еще были тысячи принтов футболок, коллекция мемов и огромное количество метаданных фанфиков по вселенной Гарри Поттера.
Уже за несколько дней до хакатона стало понятно, что 17 января будет жарко: желающих участвовать оказалось так много, что регистрацию пришлось закрыть досрочно. В чат к тому моменту добавился 130-й желающий. В итоге на старт вышло б олее 80 участников, разделившихся на 33 команды (включая несколько «волков-одиночек»). После небольшого приветствия и презентации датасетов команды подключились к чатам выбранных тем, и процесс пошел.
Предельно серьезный настрой участников.
Перед участниками не стояло четких задач, кроме одной: получить максимум удовольствия от совместной работы с данными. « Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, просидевших два месяца на самоизоляции », предположили организаторы, подбросив к каждому датасету несколько возможных тем для исследований. Но участники просидели на изоляции гораздо дольше – и с удовольствием дали волю собственным творческим силам.
Тот Кого-Нельзя-Называть осознает, что с ним сделали фикрайтеры.
В онлайн-формате у каждой команды оказалась своя стратегия работы. Кто-то созванивался и бурно обсуждал идеи в зуме, кто-то дружно редактировал гуглдоки. Были и те, кто в нескольких строках Телеграм-сообщения договорился об идее, распределил задачи и впервые увиделся с товарищами уже на презентации.
Привычная удаленка оказалась отличным способом объединить людей, которые вряд ли встретились бы в обычной жизни. Дружелюбие и скорее командный, чем соревновательный, дух хакатона побуждали людей формировать команды примерно так: «Привет, я социолог, у меня есть идеи». – «Супер, я программист, давай с идеями ко мне».
Командообразование в прямом эфире.
Разный бэкграунд, несопоставимый уровень участников в программировании – от полных новичков до разработчиков – все это не только не помешало, но даже как будто подстегнуло работу. Любой, кто не умел, но очень хотел что-то сделать с данными, просто писал в чат – и как правило вскоре уже благодарил: «Получилось!».
Работа над проектами длилась восемь часов, причем по ощущениям это было катастрофически мало. Некоторые участники потом делились: процесс захватил их так, что не возникло даже мысли о перерыве. До этапа презентации добралась 21 команда. Интересно, что во время первых осуждений датасетов самые активные разговоры велись о мемах, но среди итоговых проектов абсолютным фаворитом (почти треть всех работ) стал датасет «дневниковые записи».
Частота упоминаний «лошадиных» профессий.
Несмотря на мнимую несерьезность половины датасетов, исследования получились разносторонние, иногда достаточно глубокие и оригинальные . Например, одна из команд задалась вопросом: связана ли популярность мема с «неприличностью» его содержания? (нет, не связана, так что люди не так безнадежны, как можно подумать). Другие участники исследовали отражение феминистской повестки в фанфиках (нашли, но это не точно).
Некоторые команды не ограничились исследованием и сделали полноценный прототип продукта. Так, участники, работавшие с кинотропами с сайта TV Tropes, придумывали на их основе рекомендательный алгоритм. Еще одна команда предложила сервис с графиками упоминания медийных персон в СМИ. Любопытные результаты получили экспериментаторы, которые пытались научить компьютер генерировать собственные мемы или «писать» тексты в духе дневниковых записей.
Созданный участниками бот готов культурно пообщаться.
Были и результаты, заставившие улыбнуться, а потом задуматься (прямо как Шнобелевка). Участники так и не пришли к единому мнению: кто такой Сережа, чье имя стало одним из главных топиков дневникового корпуса в начале 20 века? Как принято в таких случаях оговариваться в серьезных научных статьях, «это тема для дальнейших исследований».
Галстуки на мемах встречаются чаще, чем котики.
Победителя выбирали голосованием, каждый участник отдал голос самой запомнившейся презентации. Организаторам этого оказалось мало, и появилось еще несколько номинаций (некоторые с задорными и загадочными названиями – вполне в духе прошедшего состязания).
В итоге хакатон, состоящий из сплошных «впервые», «никогда так не делали» и «неизвестно, что будет» получился добрым и неформальным, при этом драйвовым.
Всем до встречи!
Как оказалось, чтобы отлично провести время вместе и научиться друг у друга полезным вещам, нам не нужны ни ценные призы, ни уютные коворкинги, ни бесплатные печеньки (хотя при возможности, конечно, не откажемся). Нужно немного данных… ну хорошо, много данных, щепотка экспертизы и повод начать – а дальше мы сами.