Автоматизированная обработка материалов пробной переписи населения 2008 года является опытной эксплуатацией подсистем автоматизированной системы обработки материалов Всероссийской переписи населения 2010 года (АС ВПН).
В отличие от автоматизированной обработки материалов Всероссийской переписи населения 2010 года, автоматизированная обработка материалов пробной переписи населения проводится только на федеральном уровне, и включать в себя сканирование переписных листов, оптическое распознавание символов и меток, формирование базы данных и базы графических образов с последующей обработкой данных и конструированием отчетов.
6.1. Подготовка материалов к автоматизированной обработке.
Подготовка материалов пробной переписи населения к автоматизированной обработке осуществляется в соответствии с Руководством по подготовке материалов пробной переписи к автоматизированной обработке и другими документами, утвержденными Росстатом, и включает в себя:
- комплектование заполненных переписных листов по территориальным единицам разработки;
- проверку полноты и правильности записанных переписчиком ответов в переписных документах;
- кодирование ответов на вопросы переписных документов, записанных словами;
- нумерацию переписных документов, подсчет контрольных чисел и составление сопроводительной документации.
6.2. Организация автоматизированной обработки материалов пробной переписи населения.
Автоматизированная обработка материалов пробной переписи населения осуществляется в ГМЦ Росстата в соответствии с утвержденной Росстатом технологией обработки материалов и получения итогов. Для обработки будут задействованы два сервера приложений, один сервер базы данных, необходимое количество сканеров ДСЗ00 и станций ввода данных и станций формального и логического контроля.
В ходе автоматизированной обработки данных пробной переписи населения используются следующие инновационные методы:
Экранное кодирование - подсистема регионального уровня.
Экранное кодирование - автоматизированный ввод кодовых значений показателей по изображению рукописного написания значения показателя. Позволяет значительно снизить трудозатраты по ручному кодированию значений показателей.
Экранному кодированию подлежат такие вопросы переписных листов, как место рождения, гражданство, национальность, языки, место работы, миграция.
Формальный и логический контроль - подсистема регионального уровня.
Формальный и логический контроль производится в ГМЦ Росстата с применением АС ВПН. Программным средством проверяется допустимость значений данных в переписном листе (формальный контроль), а затем отсутствие противоречий между значениями данных в переписном листе (проверка логических увязок) и между значениями данных в переписных листах внутри домохозяйства и жилого помещения.
Автокоррекция данных - подсистема федерального уровня.
Для обеспечения корректности данных и, при необходимости, их исправления, данные обрабатываются программой автокоррекции. Программа производит автоматическую проверку и корректировку первичных данных в соответствии с алгоритмами формального и логического контроля для обеспечения непротиворечивости данных, а также формирование расчетных показателей на основе первичной информации.
Импутация данных - подсистема федерального уровня.
Для восстановления отсутствующих сведений в переписных листах проводится импутация данных - пропущенное или ошибочное значение восстанавливается в соответствии со специально разработанными алгоритмами импутации данных Всероссийской переписи населения 2010 года.
Кроме этого, будут использоваться подсистемы:
- формирования таблиц Программы публикации итогов Всероссийской переписи населения 2010 года;
- формирования дополнительных запросов к базе данных Всероссийской переписи населения 2010 года;
- сопоставления итогов Всероссийской переписи населения 2010 года с итогами Всероссийской переписи населения 2002 года;
- создания территориальной выборки многоцелевого назначения на базе материалов Всероссийской переписи населения 2010 года;
- подготовки первичных данных к передаче на архивное хранение.
При пробной переписи населения итоговые таблицы (в соответствии с экономическим описанием) формируются на одном этапе, в порядке очередности обработки.
Кроме того, будет апробирован модуль формирования дополнительных таблиц по запросам пользователей.