От грязных данных — к машиночитаемой биографии: начало пути

Как сделать, чтобы очистка данных в биографических базах не отнимала у историков недели, а то и месяцы труда? Возможна ли унификация имен, дат, геоданных и других стандартных полей в базах? Можно ли придумать общий формат обмена и экспорта биографических данных? Публикуем итоги круглого стола «На пути к машиночитаемой биографии: как нам оцифровывать, нормализовывать и объединять биографические данные в цифровой форме», прошедшего в рамках DH-адвента в Центре цифровых гуманитарных исследований НИУ ВШЭ

Image by Iris Hamelmann from Pixabay

Free

Каждый год цифровые гуманитарии Вышки устраивают «Digital Humanities митап» — встречу ученых и практиков, работающих на стыке культуры, гуманитарных наук и цифровой среды. В этом году митап прошел онлайн — в форме двухдневной серии круглых столов в Zoom.

Круглые столы были посвящены рынку труда в Digital Humanities, оцифровке, краудсорсингу в Digital Humanities, оценке качества гуманитарных датасетов, а также преподаванию Digital Humanities в школе. А поскольку митап происходил в предрождественское время, он в этом году был назван «DH-адвентом».

В этом материале мы собрали все яркие моменты круглого стола «На пути к машиночитаемой биографии: как нам оцифровывать, нормализовывать и объединять биографические данные в цифровой форме». На круглом столе собрались люди, имеющие опыт работы с большими базами биографических данных (база жертв политических репрессий и ее производные, базы участников мировых войн и др.), в том числе опыт автоматического анализа и нормализации полей в этих базах. Список участников дискуссии — в конце этого материала.

50 Азербайджанов и«самоизоляция»: как нам обустроить биографические базы?

В начале круглого стола модератор Даниил Скоринкин (DH-центр НИУ ВШЭ) обозначил некоторые «глобальные проблемы» биографических баз:

Недостаточная связанность данных: один и тот же человек в разных базах — это две несвязанные сущности, базы «самоизолированы» друг от друга)
Отсутствие единой точки привязки (вроде URI в wikidata), на основе которой можно было бы начать устанавливать такие связи

Один и тот же человек — в базе жертв репрессированных и в базе участников ВОВ (был репрессирован, затем участвовал в войне и скончался в госпитале)
Дубли людей внутри баз
Ненормализованные геоданные: в большинстве случаев топонимы не привязаны к координатам или какому-либо справочнику — это слабо-структурированные строковые поля, где одна и так же локация может быть записана множеством способов ( “абсагач» — «апсагач» — «абсогачево», «азербайджан» — «айзербаджан» — «азербажан» и т.д. )
Много других ненормализованных данных: даты, номера статей уголовного кодекса, ордена и др.
Противоречивые данные в разных источниках: расхождения в дате репрессии, написании фамилии и пр.

Даниил Скоринкин, вступление к круглому столу — глобальные проблемы биографических баз

Во что обходятся «грязные» данные исследователю

Первой на круглом столе выступила Екатерина Мишина — редактор базы «Открытый список» жертв политических репрессий в СССР, постдок Международного центр истории и социологии Второй мировой войны и ее последствий. Екатерина представила взгляд на биографические базы с двух сторон: изнутри, как куратор Открытого списка, и снаружи, как историк, использующий базы для исследований. Вот какие сложности отметила Екатерина:

Одни и те же данные могут быть записаны десятками разных способов
Среди многообразия записей одного и того же сложно существовать. Это увеличивает количество времени, которое тратится на этот анализ, просто в дни, в недели.
Когда смотришь данные через фильтры, невозможно просто взять и сделать выборку (из-за разных способов записи одного и того же).
Все могло бы быть проще, если бы существовала унификация в записи конкретных полей.
Самые сложные поля — это география. Самый простой пример: можно написать начиная с села и заканчивая областью, можно — наоборот. Для человека, который сидит и это все вручную разбирает, это страшная морока.
Другая сложность — запись профессий и место работы. Здесь тоже не хватает
Большая часть времени в цифровом исследовании тратится на то, чтобы создать для себя «чистый» список, с которым можно работать.
Грязные данные замедляют процесс выявления дублей.

«Национальности пишут как угодно»

Разговор продолжил Никита Чистиков — специалист по анализу данных, много работающий с базой «Открытого списка», GIS-эксперт. Вот некоторые тезисы из его выступления:

Нормализация биографических данных первична. Не проведя ее, всерьез говорить о каких-то кросс-ссылках нельзя. Это подтверждается нашим опытом даже в рамках одного «Открытого списка»
Автоматизация в нормализации полей работает слабо. Автоматически можно нормализовать в лучшем случае 30% какого-то поля с информацией (в заивисимости от поля). Остальное требует ручного разбора.
Например, поле «национальность» — казалось, бы: конечное количество вариантов. Но нет: национальности пишут как угодно, плюс есть разница в мужском и женском написании национальность, плюс не забываем про опечатки.
Сотрудники, которые заполняли протоколы, из которых все перекочевало в базу, записывали на слух. Была история: не могли понять, что за национальность скрывается за одним из полей. Потом нашлась какая-то книга воспоминаний какого-то исследователя, который в качестве анекдота привел, что какой-то следователь МГБ по ошибке со слуха воспринял национальность совершенно не так, как она записывается на самом деле. Чтобы это выяснить, потребовалось достаточно много времени.
Поля «род занятий», «вид деятельности» — гораздо сложнее. Может быть смешано место работы, род занятий, профессия. И это как раз те случаи, когда машина — даже хорошо обученный алгоритм — не может разобрать, что, где, зачем и почему.
Статьи и обвинения часто смешиваются в одном поле, иногда туда же добавляется приговор.
Все время надо думать о том, а что мог иметь в виду человек, который это писал? Зачастую то, что человек хотел написать, — это совсем не то, что он написал.
Когда речь идет о нормализации данных, мы не должны путать «крестьян», «крестьян-единоличников», «крестьян-середняков». Это все разные вещи, которые не должны быть смешаны. Иначе потом, если с этими данными будут работать историки, это исказит картину.

Есть слона по частям

Следующим высказался Илья Воронцов — исследователь и программист, автор исследования «Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?», победитель одного из хакатонов с проектом по восстановлению родственных связей между репрессированными. Илья предложил «есть слона по частям» — постепенно формализовывать отдельные поля, причем не обязательно сразу добиваться идеала, сначала можно остановиться на частично структурированных или частично нормализованных данных:

Проблема с тем, что данные не нормализованы, гигантская. Но задачу можно пробовать решать итеративно. Мы можем посмотреть на данные, сформулировать формат, к которому мы хотим прийти, — и постепенно, шаг за шагом, благодаря ботам, благодаря какому-то краудсорсингу приводить данные к этому формату.
Мы часто берем на себя слишком много ответственности, когда говорим, что мы «знаем, как надо». Какой бы формат нормализации данных мы ни придумали, какую бы категоризацию профессий ни ввели, всегда найдутся примеры, которые в нее не уложатся. Для борьбы с этим мы могли бы документировать нашу работу с данными по шагам. Если в документе написано имя «Адексей» — не считать, что это имя некорректно, а дописать еще одно «нормализованное» значение и прописать, какой алгоритм его получил, каким образом, и в каком формате оно записано. Таким образом мы не потеряем старые данные — и за счет того, что мы храним все версии данных, позволим людям, и роботам пополнять базу, не боясь, что они что-то испортят.
Проблема краудсорсинга: люди делают ошибки. Мы предполагаем, что человек может проверить карточку целиком. Мне кажется, что правильно рассчитывать на человека, который может поправить одно отдельное поле — и пойдет дальше.
Очень сложная сущность — адрес или место. Допустим, у нас в качестве места рождения человека записана Кировская область. Но мы не знаем, по данным какого года это было записано в карточке. Поэтому человек мог быть рожден на территории Кировской области, а сейчас место его рождения — уже другая область. А могло быть и наоборот: он родился на территории другого региона, но потом его место рождения вошло в Кировскую область.
Место может храниться просто как строка. И для некоторых случаев этого будет достаточно. Мы можем ограничится тем, что сохраним строку, сохраним ее исправленную версию с исправленными опечатками, нормализуем до какого-то предела — и все. А в каких-то случаях мы сможем пойти дальше — провести геокодирование, привязать к региону, может быть, даже получить координаты. В каких-то случаях, может быть, можно привязать еще и год, на который эти координаты действительны.

Осознать глубину проблемы — и придумать обменный формат

Далее слово взял Алексей Куприянов — независимый дата-аналитик, историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге. В 2019 году Алексей — провел мастерскую «На пути к машиночитаемой биографии» на IV Московско-тартуской школе по цифровым гуманитарным исследованиям. На круглом столе Алексей предложил отделить технические проблемы от концептуальных — и договориться об обменном формате:

Сначала все базы создавались под чтение людьми. На то, что придут какие-то сумасшедшие дата-энтузиасты и начнут все это пытаться читать машинно, никто не рассчитывал. На вид это выглядит именно так: ожидается, что человек прочтет — и как-нибудь поймет. Вопрос унификации во многих базах изначально не ставился — поэтому он сейчас и представляется практически нерешаемым. При создании будущих баз данных эту цель надо ставить в первую очередь.
Возможно, мы не ко всему готовы. Чтобы задавать для человека жесткие рамки, чтобы он не думал каждый раз мучительно, надо ли ему заводить какое-то новое нормализованное значение для заполнения поля — или надо все-таки найти старое? Неясно, готовы ли к такому волонтеру. А главное, неясно, готовы ли к такому мы сами, потому что нам тогда нужны большие сводные таблицы имен, географических названий, вообще любых именованных сущностей.
У нас нет ресурсов, чтобы говорить о едином формате для всех баз. Скорее, нужно договориться об обменном формате, чтобы можно было делать какие-то простые выгрузки. То есть храните в своей базе данные, как хотите, но попробуйте обеспечить выгрузку каких-то стандартных полей в общем формате.
Нужно сохранять данные как они есть. Потому что потом можно будет вернуться ко второй, третьей, четвертой, пятой интерпретации, если первая будет ошибочной.

***

За выступлениями последовала свободная дискуссия. В ней участники обсудили доступность географических баз данных, взаимодействие с архивами, а также проблемы персональных данных в тех биографических базах, где есть информация «моложе» 75 лет.

Публикуем видео круглого стола целиком:

(здесь скоро будет видео)

Кто пришел обсудить биографические базы

Екатерина Мишина — редактор базы «Открытый список» жертв политических репрессий в СССР, постдок Международного центр истории и социологии Второй мировой войны и ее последствий
Никита Чистиков — эксперт по анализу данных, GIS-эксперт, «Открытого списка»
Илья Воронцов — исследователь и программист, автор исследования «Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?», победитель одного из хакатонов с проектом по восстановлению родственных связей между репрессированными
Алексей Куприянов — независимый дата-аналитик, историк науки, исследователь кадровой статистики императорских университетов до 1917, ранее доцент факультета социологии НИУ ВШЭ в Санкт-Петербурге, автор мастерской на пути к машиночитаемой биографии на IV Московско-тартуской школе по цифровым гуманитарным исследованиям
Алексей Макаров, историк, работает над биографической базой по диссидентскому движению
Никита Ломакин, историк, работает над базой мемуаров мемориала.

Дата

24 декабря, 2020 г.

Рубрики

Экспертиза

Темы

идеи и опыт репортаж о событии дополнительное образование digital humanities конференции

В статье упомянуты

Центр цифровых гуманитарных исследований НИУ ВШЭ, Школа лингвистики