«Декларатор» пополнили данными Минобороны за четыре года

Jan. 24, 2019

Специально разработанная система на основе нейросетей позволила добавить более 133 тысяч деклараций, которые 35 тысяч сотрудников Министерства обороны РФ подали с 2014 по 2017 год. В результате в базе проекта содержатся записи о 127 тысячах публичных должностных лиц.


Почему декларации Минобороны — особенные 
Минобороны размещает антикоррупционные декларации с пофамильным списком служащих и сотрудников подведомственных организаций с 2010 года. При этом военное ведомство на особом счету. Во-первых, у него больше всех деклараций: в сводном файле ежегодно размещаются данные о более чем тридцати тысячах человек. Это не только военнослужащие, но и государственные гражданские служащие, и сотрудники бюджетных учреждений. Во-вторых, вопреки приказу Минтруда, в декларациях не указываются должности декларантов на том основании, что у некоторых подотчетных лиц должность представляет гостайну. Поэтому в исходных документах указаны только инициалы служащих Минобороны и подведомственных учреждений. Для нас это представляет особую сложность: зачастую невозможно установить, кем именно является то или иное подотчетное лицо, или определить, что две записи разных лет относятся к одному и тому же году. Как мы уже писали, это сужает возможности для общественного антикоррупционного контроля.

 

«Из-за ошибок в текстах деклараций и разнообразия лексики, мы не можем полностью автоматизировать составление таблиц для «Декларатора». Мы считаем, что такой подход к декларированию говорит о крайней неэффективности использования человеческих ресурсов в ведомстве. Если кто-то действительно вручную вносит данные о тысячах человек в декларации Минобороны, то в составе вооруженных сил должна существовать отдельная антикоррупционная рота, чьей боевой задачей является составления таблицы подобного размера», — комментирует руководитель проекта «Декларатор» Андрей Жвирблис.

 

Нейросеть и парсер «Декларатора»
Чтобы связать декларации разных лет между собой и сформировать профили должностных лиц, программисты «Декларатора» разработали специальный алгоритм, который очищает данные от ошибок и дубликатов, пытается определить тип недвижимости и транспортного средства и анализирует содержимое декларации. Он автоматически определил и «склеил» 29987 профилей (в общей сложности — около 80000 деклараций). Мы будем использовать нейросети в будущем, что позволит существенно автоматизировать и ускорить наполнение базы данных. Еще мы сделали несколько парсеров для специфических файлов деклараций (вот инструкция по работе с ними и нашим API) и работаем над универсальным парсером.

Мы предполагаем, что при импорте данных могли произойти ошибки. Их наверняка меньше, чем при ручном переносе данных, но если вы обнаружите ошибку или захотите принять участие в разработке — обязательно напишите нам. Вы можете поддержать развитие проекта, подписавшись на регулярные пожертвования «Трансперенси».


Другие записи в блоге