• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
История стиховедения и формализм

Орехов Б. В.

Слово.ру: балтийский акцент. 2024. Т. 15. № 4. С. 147-157.

Глава в книге
The Parallel Corpus of Russian and Ruska Romani Languages

Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.

In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

DH Хакатон-2021: полный онлайн


В воскресенье 17 января состоялся самый масштабный хакатон Центра цифровых гуманитарных исследований НИУ ВШЭ. Мероприятие прошло полностью онлайн, поэтому участники собрались не только из разных московских вузов, но и из разных городов. Задумка была смелая и даже слегка хулиганская, а на выходе получилась неформальная и очень продуктивная встреча.

Image by Gerd Altmann from Pixabay

Image by Gerd Altmann from Pixabay
Free
Анонс мероприятия отсылал к томпсоновским страху и ненависти в Лас-Вегасе, тем самым как бы предупреждая: гуманитарные данные в большом количестве и нестандартных сочетаниях могут иметь непредсказуемый эффект. Организаторы постарались раздобыть ингредиенты для по-настоящему крепких исследовательских коктейлей. 

Начало мероприятия. Организаторы совершенно не волнуются, что из этого выйдет.


На выбор участникам предлагался массив статей региональной прессы, корпус дневниковых записей с XVIII по XXI века, богатый набор кинотропов с сайта TV Tropes. А еще были тысячи принтов футболок, коллекция мемов и огромное количество метаданных фанфиков по вселенной Гарри Поттера. 


Уже за несколько дней до хакатона стало понятно, что 17 января будет жарко: желающих участвовать оказалось так много, что регистрацию пришлось закрыть досрочно. В чат к тому моменту добавился 130-й желающий. В итоге на старт вышло б олее 80 участников, разделившихся на 33 команды (включая несколько «волков-одиночек»). После небольшого приветствия и презентации датасетов команды подключились к чатам выбранных тем, и процесс пошел.


Предельно серьезный настрой участников.


Перед участниками не стояло четких задач, кроме одной: получить максимум удовольствия от совместной работы с данными. « Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, просидевших два месяца на самоизоляции », предположили организаторы, подбросив к каждому датасету несколько возможных тем для исследований. Но участники просидели на изоляции гораздо дольше – и с удовольствием дали волю собственным творческим силам.


Тот Кого-Нельзя-Называть осознает, что с ним сделали фикрайтеры.


В онлайн-формате у каждой команды оказалась своя стратегия работы. Кто-то созванивался и бурно обсуждал идеи в зуме, кто-то дружно редактировал гуглдоки. Были и те, кто в нескольких строках Телеграм-сообщения договорился об идее, распределил задачи и впервые увиделся с товарищами уже на презентации. 


Привычная удаленка оказалась отличным способом объединить людей, которые вряд ли встретились бы в обычной жизни. Дружелюбие и скорее командный, чем соревновательный, дух хакатона побуждали людей формировать команды примерно так: «Привет, я социолог, у меня есть идеи». – «Супер, я программист, давай с идеями ко мне». 


Командообразование в прямом эфире.


Разный бэкграунд, несопоставимый уровень участников в программировании – от полных новичков до разработчиков – все это не только не помешало, но даже как будто подстегнуло работу. Любой, кто не умел, но очень хотел что-то сделать с данными, просто писал в чат – и как правило вскоре уже благодарил: «Получилось!».


Работа над проектами длилась восемь часов, причем по ощущениям это было катастрофически мало. Некоторые участники потом делились: процесс захватил их так, что не возникло даже мысли о перерыве. До этапа презентации добралась 21 команда. Интересно, что во время первых осуждений датасетов самые активные разговоры велись о мемах, но среди итоговых проектов абсолютным фаворитом (почти треть всех работ) стал датасет «дневниковые записи». 


Частота упоминаний «лошадиных» профессий.


Несмотря на мнимую несерьезность половины датасетов, исследования получились разносторонние, иногда достаточно глубокие и оригинальные . Например, одна из команд задалась вопросом: связана ли популярность мема с «неприличностью» его содержания? (нет, не связана, так что люди не так безнадежны, как можно подумать). Другие участники исследовали отражение феминистской повестки в фанфиках (нашли, но это не точно). 


Некоторые команды не ограничились исследованием и сделали полноценный прототип продукта. Так, участники, работавшие с кинотропами с сайта TV Tropes, придумывали на их основе рекомендательный алгоритм. Еще одна команда предложила сервис с графиками упоминания медийных персон в СМИ. Любопытные результаты получили экспериментаторы, которые пытались научить компьютер генерировать собственные мемы или «писать» тексты в духе дневниковых записей.


Созданный участниками бот готов культурно пообщаться.


Были и результаты, заставившие улыбнуться, а потом задуматься (прямо как Шнобелевка). Участники так и не пришли к единому мнению: кто такой Сережа, чье имя стало одним из главных топиков дневникового корпуса в начале 20 века? Как принято в таких случаях оговариваться в серьезных научных статьях, «это тема для дальнейших исследований».


Галстуки на мемах встречаются чаще, чем котики.


Победителя выбирали голосованием, каждый участник отдал голос самой запомнившейся презентации. Организаторам этого оказалось мало, и появилось еще несколько номинаций (некоторые с задорными и загадочными названиями – вполне в духе прошедшего состязания). 


В итоге хакатон, состоящий из сплошных «впервые», «никогда так не делали» и «неизвестно, что будет» получился добрым и неформальным, при этом драйвовым. 


Всем до встречи!

Как оказалось, чтобы отлично провести время вместе и научиться друг у друга полезным вещам, нам не нужны ни ценные призы, ни уютные коворкинги, ни бесплатные печеньки (хотя при возможности, конечно, не откажемся). Нужно немного данных… ну хорошо, много данных, щепотка экспертизы и повод начать – а дальше мы сами.

Большое спасибо организаторам хакатона:
  • Мария Подрядчикова
  • Даниил Скоринкин
  • Артём Крюков
  • Олег Сериков
  • Владимир Селеверстов
  • Михаил Сонкин
  • Сергей Капочкин
  • Светлана Писковатскова
  • Герман Пальчиков
  • Алексей Доркин
  • Надя Буйлова