• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Статья
Язык Л. Н. Толстого: корпусный подход и интроспекция

Орехов Б. В.

Труды института русского языка им. В.В. Виноградова. 2024. № 1. С. 67-73.

Глава в книге
Languages examined or referred to in the present book

Creissels D., Zúñiga F., Moroz G.

In bk.: Applicative Constructions in the World's Languages. Berlin: De Gruyter Mouton, 2024. P. 61-73.

Препринт
Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

DH Хакатон-2021: полный онлайн


В воскресенье 17 января состоялся самый масштабный хакатон Центра цифровых гуманитарных исследований НИУ ВШЭ. Мероприятие прошло полностью онлайн, поэтому участники собрались не только из разных московских вузов, но и из разных городов. Задумка была смелая и даже слегка хулиганская, а на выходе получилась неформальная и очень продуктивная встреча.

Image by Gerd Altmann from Pixabay

Image by Gerd Altmann from Pixabay
Free
Анонс мероприятия отсылал к томпсоновским страху и ненависти в Лас-Вегасе, тем самым как бы предупреждая: гуманитарные данные в большом количестве и нестандартных сочетаниях могут иметь непредсказуемый эффект. Организаторы постарались раздобыть ингредиенты для по-настоящему крепких исследовательских коктейлей. 

Начало мероприятия. Организаторы совершенно не волнуются, что из этого выйдет.


На выбор участникам предлагался массив статей региональной прессы, корпус дневниковых записей с XVIII по XXI века, богатый набор кинотропов с сайта TV Tropes. А еще были тысячи принтов футболок, коллекция мемов и огромное количество метаданных фанфиков по вселенной Гарри Поттера. 


Уже за несколько дней до хакатона стало понятно, что 17 января будет жарко: желающих участвовать оказалось так много, что регистрацию пришлось закрыть досрочно. В чат к тому моменту добавился 130-й желающий. В итоге на старт вышло б олее 80 участников, разделившихся на 33 команды (включая несколько «волков-одиночек»). После небольшого приветствия и презентации датасетов команды подключились к чатам выбранных тем, и процесс пошел.


Предельно серьезный настрой участников.


Перед участниками не стояло четких задач, кроме одной: получить максимум удовольствия от совместной работы с данными. « Нет ничего более беспомощного, безответственного и испорченного, чем идеи людей, просидевших два месяца на самоизоляции », предположили организаторы, подбросив к каждому датасету несколько возможных тем для исследований. Но участники просидели на изоляции гораздо дольше – и с удовольствием дали волю собственным творческим силам.


Тот Кого-Нельзя-Называть осознает, что с ним сделали фикрайтеры.


В онлайн-формате у каждой команды оказалась своя стратегия работы. Кто-то созванивался и бурно обсуждал идеи в зуме, кто-то дружно редактировал гуглдоки. Были и те, кто в нескольких строках Телеграм-сообщения договорился об идее, распределил задачи и впервые увиделся с товарищами уже на презентации. 


Привычная удаленка оказалась отличным способом объединить людей, которые вряд ли встретились бы в обычной жизни. Дружелюбие и скорее командный, чем соревновательный, дух хакатона побуждали людей формировать команды примерно так: «Привет, я социолог, у меня есть идеи». – «Супер, я программист, давай с идеями ко мне». 


Командообразование в прямом эфире.


Разный бэкграунд, несопоставимый уровень участников в программировании – от полных новичков до разработчиков – все это не только не помешало, но даже как будто подстегнуло работу. Любой, кто не умел, но очень хотел что-то сделать с данными, просто писал в чат – и как правило вскоре уже благодарил: «Получилось!».


Работа над проектами длилась восемь часов, причем по ощущениям это было катастрофически мало. Некоторые участники потом делились: процесс захватил их так, что не возникло даже мысли о перерыве. До этапа презентации добралась 21 команда. Интересно, что во время первых осуждений датасетов самые активные разговоры велись о мемах, но среди итоговых проектов абсолютным фаворитом (почти треть всех работ) стал датасет «дневниковые записи». 


Частота упоминаний «лошадиных» профессий.


Несмотря на мнимую несерьезность половины датасетов, исследования получились разносторонние, иногда достаточно глубокие и оригинальные . Например, одна из команд задалась вопросом: связана ли популярность мема с «неприличностью» его содержания? (нет, не связана, так что люди не так безнадежны, как можно подумать). Другие участники исследовали отражение феминистской повестки в фанфиках (нашли, но это не точно). 


Некоторые команды не ограничились исследованием и сделали полноценный прототип продукта. Так, участники, работавшие с кинотропами с сайта TV Tropes, придумывали на их основе рекомендательный алгоритм. Еще одна команда предложила сервис с графиками упоминания медийных персон в СМИ. Любопытные результаты получили экспериментаторы, которые пытались научить компьютер генерировать собственные мемы или «писать» тексты в духе дневниковых записей.


Созданный участниками бот готов культурно пообщаться.


Были и результаты, заставившие улыбнуться, а потом задуматься (прямо как Шнобелевка). Участники так и не пришли к единому мнению: кто такой Сережа, чье имя стало одним из главных топиков дневникового корпуса в начале 20 века? Как принято в таких случаях оговариваться в серьезных научных статьях, «это тема для дальнейших исследований».


Галстуки на мемах встречаются чаще, чем котики.


Победителя выбирали голосованием, каждый участник отдал голос самой запомнившейся презентации. Организаторам этого оказалось мало, и появилось еще несколько номинаций (некоторые с задорными и загадочными названиями – вполне в духе прошедшего состязания). 


В итоге хакатон, состоящий из сплошных «впервые», «никогда так не делали» и «неизвестно, что будет» получился добрым и неформальным, при этом драйвовым. 


Всем до встречи!

Как оказалось, чтобы отлично провести время вместе и научиться друг у друга полезным вещам, нам не нужны ни ценные призы, ни уютные коворкинги, ни бесплатные печеньки (хотя при возможности, конечно, не откажемся). Нужно немного данных… ну хорошо, много данных, щепотка экспертизы и повод начать – а дальше мы сами.

Большое спасибо организаторам хакатона:
  • Мария Подрядчикова
  • Даниил Скоринкин
  • Артём Крюков
  • Олег Сериков
  • Владимир Селеверстов
  • Михаил Сонкин
  • Сергей Капочкин
  • Светлана Писковатскова
  • Герман Пальчиков
  • Алексей Доркин
  • Надя Буйлова