Опубликован исходный код парсера деклараций МВД

Oct. 10, 2017

В базу «Декларатора» внесена информация из антикоррупционных деклараций центрального аппарата Министерства внутренних дел. Исходный код парсера м словари, категоризирующие объекты недвижимости, доступны в видео открытого кода.


В базу «Декларатора» внесена информация из антикоррупционных деклараций центрального аппарата Министерства внутренних дел в машиночитаемом виде. Наши сотрудники и стажеры внесли данные из деклараций за 2014-2016 годы, воспользовавшись работой парсера. Наш волонтер написал парсер, который разобрал исходные файлы в формат, многократно упрощающий и ускоряющий процесс ручной расшифровки. Исходный код парсера выложен в открытом доступе, там же лежат словари, категоризирующие объекты недвижимости.

МВД публикует две отдельных Excel-таблицы с декларациями: одна включает сотрудников, назначенных министром внутренних дел, вторая — тех, кого назначает президент. Два списка — это более 600 персон за каждый год, в том числе весь центральный аппарат МВД, формально относящиеся к ним руководители региональных управлений, начальники подведомственных МВД вузов и иные должностные лица. К сожалению, часть данных за 2016 год были опубликованы в виде файла с расширением .pdf, что затруднило их парсинг.

Если вы хотите помочь «Декларатору», мы предлагаем вам принять участие в парсинге данных других ведомств в формат xml (полное описание формата здесь). Напишите нам на [email protected], чтобы узнать, что именно нужно распарсить в первую очередь.


Источник: https://github.com/TI-Russia/xparser
Другие записи в блоге