Об утверждении Методологических положений по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях от 19 апреля 2013

Действующий

ФЕДЕРАЛЬНАЯ СЛУЖБА ГОСУДАРСТВЕННОЙ СТАТИСТИКИ

ПРИКАЗ

от 19 апреля 2013 года N 165

Об утверждении Методологических положений по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях

В соответствии с Положением о Федеральной службе государственной статистики, утвержденным постановлением Правительства Российской Федерации от 2 июня 2008 года N 420 (Собрание законодательства Российской Федерации, 2008, N 23, ст.2710; 2008, N 46, ст.5337; 2009, N 6, ст.738; 2010, N 26, ст.3350), а также в целях научно-методологического обеспечения развития государственной статистики

приказываю:

утвердить прилагаемые Методологические положения по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях.

Руководитель
А.Е.Суринов

УТВЕРЖДЕНЫ
приказом Росстата
от 19 апреля 2013 года N 165

Методологические положения по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях

Введение

Основной целью государственной статистики является обеспечение информационных потребностей государства и общества в полной, достоверной, научно обоснованной и своевременно предоставляемой официальной статистической информации. Согласно статье 2 Федерального закона от 29.11.2007 N 282-ФЗ (ред. от 16.10.2012) "Об официальном статистическом учете и системе государственной статистики в Российской Федерации" официальная статистическая информация представляет собой сводную агрегированную документированную информацию о количественной стороне социальных, экономических, демографических, экологических и других общественных процессов в Российской Федерации, формируемую субъектами официального статистического учета в соответствии с официальной статистической методологией. Агрегирование данных включает формирование общих итогов по всей совокупности наблюдаемых единиц, а также ее разграничение на группы в соответствии с действующими общероссийскими классификациями.

При этом субъекты официального статистического учета гарантируют респондентам конфиденциальность полученных от них индивидуальных данных по показателям, содержащимся в формах государственного статистического наблюдения, и используют эти данные только для формирования официальной статистической информации (статья 9 Федерального закона от 29.11.2007 N 282-ФЗ), что соответствует основополагающим принципам официальной статистики, принятыми Статистической комиссией ООН в 1994 году.

Статистика, как отрасль знаний, предоставляет инструмент, позволяющий выявлять и измерять закономерности развития социально-экономических явлений и процессов, взаимосвязи между ними. Это очень важно при проведении научных и аналитических исследований, построении экономических моделей, принятии управленческих решений. Однако, агрегированных данных, предоставляемых в виде официальной статистической информации, бывает недостаточно для выявления множества однокачественных варьирующих явлений.

Федеральная служба государственной статистики, в соответствии с возложенными на нее полномочиями, представляет в установленном порядке официальную статистическую информацию органам государственной власти и местного самоуправления, средствам массовой информации, научным и другим организациям и гражданам.

Международная статистическая общественность обратила внимание на потребность в получении и возможности предоставления обезличенных статистических данных респондентов. Это значительно расширяет перечень пользователей информацией, подтверждает качество официальной статистической информации и улучшает имидж государственной статистики при сохранении доверия респондентов. Многие национальные статистические службы (Австралии, Финляндии, Нидерландов, Швеции, США и др.) представляют сообществу исследователей набор обезличенных персональных данных. Представление данной информации нормативно закреплено, определены регламенты доступа пользователей к информации, разработаны соответствующие правила ее обезличивания.

Настоящие методологические положения разработаны с учетом международных рекомендаций в области распространения микроданных внешним пользователям и научных исследований с целью расширения возможностей использования статистических микроданных годового структурного обследования широким кругом исследователей в аналитических целях при обеспечении конфиденциальности данных.

I. Основные понятия и определения

Все приведенные в настоящем разделе понятия и определения используются только в целях настоящих Методологических положений.

Микроданные - набор единичных записей об индивидуальном объекте (респонденте), каждая из которых содержит набор переменных (показателей) в отношении данного объекта. Четыре категории переменных (необязательно являются непересекающимися):

прямые идентификаторы,

косвенные идентификаторы,

конфиденциальные переменные,

неконфиденциальные переменные.

Деперсонификация микроданных (анонимизация микроданных) - процедура защиты (маскировки) конфиденциальных данных от раскрытия с применением определенных методов.

Ре-идентификация - происходит, когда на основе сравнения значений идентифицирующих переменных единица i' из внешнего файла определена как соответствующая единице i в массиве микроданных, и установлено, что данная связь является корректной.

Категориальные переменные (данные) - переменные, принимающие значения из некоторого ограниченного набора категорий, связанных с неисчисляемыми признаками, такими как названия (товаров, услуг и др.), выходные переменные в классификационных моделях (метки классов).

Количественные (численные) переменные (данные) - переменные, которые регистрируются с помощью чисел, имеющих содержательный смысл.

С количественными переменными можно выполнять все обычные операции над числами, такие, как вычисление среднего и др.

Выделяют два типа количественных переменных: дискретные и непрерывные.

Дискретная - это переменная, которая может принимать значения только строго определенные значения из некоторого списка определенных значений, например, целочисленные.

В отличие от дискретных переменных непрерывные переменные могут принимать любое значение в пределах определенного числового интервала. Исчисления производятся только с непрерывными переменными.

Прямые идентификаторы - переменные, которые однозначно идентифицируют респондента. Например: регистрационный код организации, ее наименование, адрес и т.п.

Косвенные идентификаторы (ключевые переменные) - переменные, которые идентифицируют респондента с той или иной степенью неопределенности. Тем не менее, комбинация косвенных идентификаторов может дать однозначную идентификацию. Например: вид экономической деятельности, населенный пункт, численность работников.

Конфиденциальные переменные - переменные, которые содержат деликатную информацию о респонденте. Например: объем производства, финансовые показатели деятельности организации.

Неконфиденциальные переменные - переменные, которые не относятся ни к одной из вышеперечисленных категорий.

Модификация данных - искажение массива микроданных перед тем, как предоставить к нему доступ.

Сокращение данных - частичная фильтрация (удаление) данных или снижение уровня детализации исходного массива данных.

Абсолютно анонимные микроданные - статистические данные, обработанные методами контроля раскрытия статистической информации путем удаления отдельных переменных и модификации данных до такой степени, что идентификация респондентов является невозможной.

Де-факто анонимные микроданные.

Микроданные являются де-факто анонимными, если нельзя полностью исключить раскрытие конфиденциальных данных, но это может произойти только вследствие чрезмерно затраченного времени, вложения значительных средств и людских ресурсов. Де-факто анонимность микроданных зависит не только объема сохранившейся в данных информации, но и от возможностей, существующих для идентификации объекта статистического наблюдения. Решающее значение имеет наличие дополнительных знаний об индивидуальном объекте и то, каким образом эти данные используются.

Формально обезличенные микроданные - удаление прямых идентификаторов объекта, при этом косвенные идентификаторы (например, виды экономической деятельности, территориальная принадлежность), а также наблюдаемые переменные в основном сохраняются.

Риск и полезность

Методы и решения в области контроля раскрытия статистической информации для минимизации риска раскрытия должны обеспечивать максимальную полезность статистических данных. Задача заключается в том, чтобы найти разумный баланс: сохранить полезность информации и при этом обеспечить, чтобы риск раскрытия не превышал максимально допустимого уровня.

Годовое структурное обследование - федеральное статистическое наблюдение по форме N 1-предприятие "Основные сведения о деятельности организации". Проводится Федеральной службой государственной статистики ежегодно. Обследованию подлежат юридические лица всех форм собственности, являющиеся коммерческими организациями, а также некоммерческие организации, осуществляющие производство товаров и услуг для продажи на сторону (кроме субъектов малого предпринимательства, бюджетных организаций, банков, страховых и прочих финансовых и кредитных организаций).

II. Методы деперсонификации микроданных и основные критерии оценки их эффективности

Методы деперсонификации решают задачу защиты микроданных, которая заключается в предотвращении привязки конфиденциальной информации к конкретной единице наблюдения. С их помощью защищенный массив микроданных можно получить путем маскировки исходных данных, то есть, сгенерировав модифицированную версию исходного массива микроданных.

Методы разделяют на два типа:

Непертурбативные (сокращение данных): методы не предусматривают модификации данных, но выполняют частичную фильтрацию (удаление) данных или снижение уровня детализации исходного массива данных.

Пертурбативные (модификация данных): массив микроданных искажается перед тем, как предоставить к нему доступ. Использовать пертурбационные методы следует таким образом, чтобы статистические характеристики, рассчитанные на базе модифицированного массива, не слишком отличались от рассчитанного из оригинального массива данных.

Рис. 1 - Методы деперсонификации данных

III. Общее описание алгоритмов деперсонификации при применении различных ее методов

Формальная анонимизация (обезличивание)

Формальная анонимизация (обезличивание) заключается в удалении из каждого вектора данных формальных или прямых идентификаторов объекта. После обезличивания объект может быть однозначно опознан только по косвенным идентификаторам.

Формальная анонимизация микроданных является обязательной процедурой при предоставлении доступа к микроданным.

Выборка

В случае использования выборки публикуется не исходный файл микроданных, а выборка S из оригинального массива данных. Данный метод предусматривает публикацию микроданных только для случайной выборки данных. Метод требует последующего применения пертурбационных методов.

Сокращение детализации

Метод заключается в снижении информативности микроданных путем сокращения их детализации, которое может быть достигнуто путем увеличения масштаба шкалы измерения переменной или сокращением числа категорий, которыми представлен каждый косвенный идентификатор.

Для категориальной переменной объединяем несколько категорий с целью формирования новых (менее конкретных) категорий; в результате получаем новую переменную для которой |D()| < |D ()|, где | | - обозначение мощности множества. Для численной переменной глобальное перекодирование означает замену на новую дискретную переменную . Иными словами, потенциально бесконечный интервал D() отображается на конечном интервале D().

Применительно к численным переменным сокращение детализации может быть выполнено путем замены метрической шкалы на ординальную или интервальную шкалу или уменьшением детализации переменных.

Кодирование сверху и снизу

Кодирование сверху и снизу - особый случай перекодирования; эту методику можно использовать для ранжируемых переменных - т.е. для численных и для категориальных ординальных переменных. Суть заключается в том, что верхние значения (превышающие некий порог) группируются для формирования новой категории. То же самое проделывается с нижними значениями (не превышающими некоего порога).

Локальное подавление

Метод локального подавления (локальной фильтрации) используется для микроданных в случаях, когда экстремальное значение (выделяющееся наблюдение) переменной или экстремальная комбинация значений переменных присутствуют в одном или более векторах данных. Экстремальное значение или экстремальная комбинация значений подавляется, так как их наличие значительно упрощает процедуру идентификации объекта, особенно в тех случаях, когда экстремальными являются значения косвенных идентификаторов. Используются два варианта метода подавления:

пропуск всех экстремальных значений или комбинаций значений, которые присутствуют в индивидуальных данных, и замена их на "пропущенное" значение. При этом пользователь статистики будет знать, что пропущено экстремальное значение, но не будет владеть реальной цифрой, так как не известна степень и направление "экстремальности", т.е. велико или мало экстремальное значение, и насколько оно велико или мало;

удаление всего вектора данных. Этот вариант используется в случае, когда данные содержат очень необычное значение или комбинацию значений, особенно в случаях, когда данный объект широко известен.

Оба варианта метода локального подавления производят отклонение данных, так как оценки величины, полученной на основе микроданных, в которых некоторые значения были подавлены, будет отличаться от оценки, рассчитанной на основе реальных данных.

Подавление, как и другие методы, основанные на сокращении данных, снижает качество данных для проведения анализа.

Обмен данными

Метод обмена данными (свопинг данных или многомерная трансформация) основан на модификации данных. Суть подхода заключается в том, чтобы преобразовать базу данных, поменяв местами значения конфиденциальных переменных индивидуальных записей. Эта перестановка осуществляется таким образом, чтобы частоты низкого порядка сохранялись в том же состоянии.

Другой вариант перестановки данных в массивах микроданных - перестановка рангов. Значения переменной ранжируются в порядке возрастания, затем каждое ранжированное значение меняется местами с другим значением, случайно выбранным в некотором ограниченном диапазоне.

Этот документ входит в профессиональные
справочные системы «Кодекс» и «Техэксперт»