Смарт-парсер Декларатора расширил базу сервиса на 12%

12.07.2021

Универсальный парсер позволил добавить в сервис сведения из деклараций государственных служащих федеральных органов исполнительной власти и подведомственных им организаций. База сервиса одномоментно пополнилась 159 267 машиночитаемыми декларациями.


 

Универсальный парсер, разработанный командой Декларатора совместно с доцентом Университета Джорджа Вашингтона Дэвидом Жакони, позволил добавить в сервис сведения из деклараций государственных служащих федеральных органов исполнительной власти (ФОИВ) и подведомственных им организаций.

 

Ранее эта информация была представлена на сервере в виде архивных файлов или отдельных деклараций, переведенных в машиночитаемый формат вручную. Теперь этот массив данных прошел обработку, и база сервиса одномоментно пополнилась 159 267 декларациями.

 

Нейросеть, также разработанная программистами Декларатора, сопоставила их детали, связала декларации разных лет между собой и сформировала дополнительно 21,5 тысячи профилей декларантов. Таким образом, к утру 12 июля в базе содержится информация о доходах и имуществе 334 880 публичных должностных лиц, а общее число деклараций, сведения из которых доступны в сервисе, приблизилось к полутора миллионам.

 

Руководитель проекта «Декларатор» Андрей Жвирблис:

«Этот импорт стал первым боевым испытанием смарт-парсера деклараций. Ранее мы уже запускали его на данных, собранных у отдельных органов власти — например, на декларациях Министерства обороны и Федеральной налоговой службы. Но эти случаи другие: мы запускали инструмент вручную и тщательно анализировали результаты. Внутри каждого органа власти декларации похожи друг на друга, и высокое качество данных за отдельный год давало хороший результат за остальные периоды. Теперь же речь идет о запуске инструмента на файлах, полученных из трех десятков источников, каждый из которых использует свой подход, несмотря на наличие федерального стандарта». 

 

Мы неоднократно рассказывали, какие проблемы создает то, что ведомства не придерживаются единого стандарта публикации данных о доходах и имуществе из деклараций своих сотрудников. В добавленных данных может содержаться большее количество ошибок по сравнению с ранее обработанным массивом. Чтобы отследить и устранить их, команда Декларатора также усовершенствовала систему сбора уведомлений: пользователи могут отправить сообщение об ошибках в данных с любой из страниц сервиса.

 

Декларатор продолжит интегрировать смарт-парсер в работу сервиса: вскоре обработку пройдут исходные данные, опубликованные региональными и муниципальными органами власти.

 

Парсер разрабатывается в открытом режиме, его код доступен в репозитории «Трансперенси Интернешнл — Россия» на GitHub. Данные Декларатора в машиночитаемом виде предоставляются бесплатно для общественно значимых проектов


Поддержите развитие сервиса, подписавшись на пожертвования «Трансперенси».

Другие записи в блоге