Статус документа

ГОСТ Р 55036-2012 ISO/TS 25237:2008 Информатизация здоровья. Псевдонимизация

5.1 Концептуальная модель псевдонимизации персональных данных

5.1.1 Общие сведения

Де-идентификация - общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных. Псевдонимизация представляет собой частный случай де-идентификации. Псевдоним представляет собой средство, с помощью которого можно связать между собой данные одного и того же лица, хранящиеся в разных записях или в разных информационных системах, не раскрывая его идентичность. Псевдонимизация может быть обратимой или необратимой, то есть может позволять или не позволять восстановление идентичности субъекта данных. В здравоохранении практикуются несколько сценариев псевдонимизации, рассчитанных на ускорение электронной обработки данных пациентов в условиях, когда пациенты предъявляют все более высокие требования к конфиденциальности. Некоторые примеры таких сценариев приведены в приложении А.

Примечание - Еще одной разновидностью де-идентификации является обезличивание. В отличие от псевдонимизации обезличивание не предоставляет возможность связывания информации об одном и том же лице, хранящейся в разных записях или в разных информационных системах. Следовательно, восстановление идентичности обезличенных данных невозможно.

5.1.2 Цель обеспечения конфиденциальности

Целью обеспечения конфиденциальности персональных данных, например с помощью псевдонимизации, является предотвращение несанкционированного или нежелательного распространения информации о лице, которое может повлечь за собой юридические, административные и экономические последствия. Обеспечение конфиденциальности персональных данных является частным случаем более общей задачи неразглашения информации, которая по определению включает в себя другие субъекты, например организации. Поскольку требования к конфиденциальности персональных данных хорошо проработаны, настоящая концептуальная модель сфокусирована на конфиденциальности. Решения по защите информации, рассчитанные на обеспечение конфиденциальности персональных данных, могут быть применены для защиты информации о других субъектах, например об организациях. Это может быть полезным для тех стран, где обеспечение коммерческой тайны регулируется законодательно.

В защите персональных данных выделяются две задачи: первая - защита оперативного доступа к персональным данным (например, в веб-приложениях), вторая - защита персональных данных, хранящихся в базах данных. Настоящий стандарт посвящен последней задаче.

Описанная ниже концептуальная модель предполагает, что данные могут извлекаться из баз данных, содержащих, например, информацию о лечении или диагнозах пациентов. При этом должно гарантироваться неразглашение идентичности субъектов данных. Научные работники изучают "случаи" заболеваний, то есть истории наблюдения пациентов, накопленные за длительное время и/или собранные из разных источников. Однако для агрегирования различных элементов данных в такие "случаи" необходимо использовать метод, позволяющий агрегировать данные, но при этом не нарушать конфиденциальности сведений о субъектах этих данных. В качестве такого метода может применяться псевдонимизация.

5.1.3 Неразглашение информации о субъектах

В качестве отправной точки концептуальная модель использует обеспечение конфиденциальности персональных данных, но понятие "субъект данных" не исчерпывается физическими лицами и может означать любую другую сущность, например, организацию, устройство или прикладную программу. Однако полезно сфокусировать модель на физических лицах, поскольку обеспечение конфиденциальности персональных данных регулируется законодательно и неразглашение информации прежде всего относится к персональным данным. В законодательстве о персональных данных содержится описание некоторых понятий, используемых в данной модели. В контексте здравоохранения обеспечение конфиденциальности персональных данных гораздо сложнее общих подходов к неразглашению информации, например об устройствах, поскольку для идентификации лица потенциально могут использоваться сведения о его фенотипе.

5.1.4 Сравнение персональных и де-идентифицированных данных

5.1.4.1 Определение персональных данных

В соответствии с Директивой о защите персональных данных Европейского парламента и Совета Европейского союза от 24 октября 1995 года (директива 95/46/ЕС) [7] под "персональными данными" должна пониматься любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу ("субъекту данных"); при этом идентифицируемым считается лицо, которое может быть прямо или косвенно идентифицировано, в частности по номеру, идентифицирующему его, или по одному или нескольких факторам, специфичным для его физической, физиологической, психологической, экономической, культурной или социальной идентичности.

Это понятие используется и в законодательстве других стран, относящемся к тем же субъектам, что указаны в приведенном выше определении (например, в Законе HIPAA).

5.1.4.2 Идеализированная концепция идентификации и де-идентификации

В настоящем подпункте описана идеализированная концепция идентификации и де-идентификации. Она предполагает, что вне модели нет никаких данных, которые, к примеру, могли бы быть связаны с данными в составе модели, чтобы обеспечить (косвенную) идентификацию субъектов данных. В 5.1.5 приняты во внимание потенциальные источники информации, внешние по отношению к модели. Это необходимо для обсуждения угроз восстановления идентичности. При представлении функциональной архитектуры в проектах, описывающих информационные и коммуникационные технологии, никогда не изображаются данные, не используемые в модели. Но если моделируется идентификация субъектов, то критики модели апеллируют к информации, которая может быть добыта злоумышленником для идентификации субъектов данных или получения более точных сведений о них (например о принадлежности к определенной группе).

Как показано на рисунке 1, субъекты данных имеют ряд характеристик (например, фамилию, дату рождения, медицинские данные), которые хранятся в базе данных медицинской информационной системы (МИС) и являются персональными данными этих субъектов. Субъект данных идентифицируется в совокупности субъектов, если его можно однозначно выделить среди них. Это означает, что может быть найдена совокупность характеристик субъекта данных, по которой он может быть однозначно идентифицирован. В некоторых случаях для этого достаточно единственной характеристики (к примеру, уникального национального идентификатора субъекта). В других случаях для идентификации субъекта необходимо использовать несколько характеристик, например адрес, по которому он проживает с семьей, если такой адрес известен. Некоторые характеристики субъекта данных (например, дата и место рождения) более постоянны, чем другие (например адрес электронной почты).

Рисунок 1 - Идентификация субъектов данных

Персональные данные можно разделить на две части в соответствии с критериями идентификации (см. рисунок 2):

- обрабатываемые данные: часть данных, содержащая характеристики, по которым субъект данных не может быть однозначно идентифицирован; концептуально эти данные являются обезличенными;

- идентифицирующие данные: часть данных, содержащая совокупность характеристик, по которым субъект данных может быть однозначно идентифицирован (например демографические данные).

Рисунок 2 - Разделение персональных данных

Следует обратить внимание, что концептуальное разделение персональных данных на "идентифицирующие" и "обрабатываемые" может вести к противоречию, а именно в случае, когда непосредственно идентифицирующие данные в тоже время являются обрабатываемыми. При разработке метода псевдонимизации необходимо стремиться к снижению уровня непосредственно идентифицирующих данных, например, агрегируя эти данные в группы. В отдельных случаях, когда это невозможно (например для даты рождения новорожденного), риск идентификации должен быть отражен в документе политики безопасности. В следующем разделе настоящего стандарта разделение данных на обрабатываемые и идентифицирующие обсуждается скорее с практической точки зрения, нежели концептуальной. С концептуальной точки зрения достаточно того, что такое разделение в принципе возможно. Важно отметить, что различие между обрабатываемыми и идентифицирующими данными не является абсолютным. Для научного исследования могут требоваться некоторые данные, которые принадлежат к числу идентифицирующих, например, год и месяц рождения.

5.1.4.3 Концепция псевдонимизации

Для развития медицины важно, чтобы элементы данных конфиденциальных медицинских карт были доступны для ведения научной работы, контроля качества медицинской помощи, образования и других приложений. Согласно требованиям конфиденциальности и требованиям к научным исследованиям эти элементы должны быть модифицированы таким образом, чтобы идентичность субъекта была скрыта.