ГОСТ Р 71674-2024
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Системы искусственного интеллекта в клинической медицине
НАБОР ДАННЫХ В ФОРМАТЕ DICOM ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМОВ
Методы обезличивания набора данных и контроля набора данных на отсутствие персональных данных
Artificial intelligence in routine clinical practice. DICOM dataset for algorithm testing. Dataset de-identification and monitoring for presence of personal data
ОКС 11.040.01
Дата введения 2025-01-01
1 РАЗРАБОТАН Государственным бюджетным учреждением здравоохранения города Москвы "Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы" (ГБУЗ "НПКЦ ДиТ ДЗМ")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 7 октября 2024 г. № 1387-ст
4 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Вопросы конфиденциальности и безопасности данных связаны с вопросами неприкосновенности частной жизни, персональных данных, врачебной тайны, что достигается за счет обезличивания данных. Все меры информационной безопасности должны соответствовать действующим нормативным правовым актам в соответствии с [1].
К персональным данным относятся все сведения, которые прямо или косвенно могут идентифицировать лицо, что соответствует определению, приведенному в [2]. Обезличивание - действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных. Основная цель обезличивания - минимизация ущерба субъектам персональных данных в случае успешной реализации угрозы информационной безопасности.
При формировании наборов данных в формате DICOM для тестирования систем искусственного интеллекта в лучевой диагностике необходимо соблюдать требования по обезличиванию персональных данных в соответствии с [2]. В [3] и [4] была продемонстрирована важность этапа обезличивания и его контроль качества при подготовке наборов данных из медицинских изображений в формате DICOM, одним из этапов которых является обезличивание и его контроль качества.
Настоящий стандарт определяет требования в области применения систем искусственного интеллекта (СИИ) в клинической медицине, а именно для наборов данных в формате Digital Imaging and Communications in Medicine (стандарт обработки, хранения, передачи, печати и визуализации медицинских изображений - DICOM) для тестирования алгоритмов.
Настоящий стандарт определяет методы обезличивания персональных данных пациентов, содержащихся в медицинских изображениях формата DICOM, а также методы контроля результата обезличивания набора данных.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ Р 59921.0 Системы искусственного интеллекта в клинической медицине. Основные положения
ГОСТ Р 59921.5 Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов
ГОСТ Р ИСО 12052 Информатизация здоровья. Цифровые изображения и связь в медицине (DICOM), включая управление документооборотом и данными
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены термины по ГОСТ Р 59921.0, а также следующие термины с соответствующими определениями:
3.1
де-идентификация (de-identification): Общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных. [ГОСТ Р 55036-2012, пункт 3.18] |
3.2 маскирование: Процесс обработки изображения, посредством которого происходит удаление персональных данных за счет наложения маски на выбранные области исходного изображения.
3.3
метаданные (metadata): Информация о ресурсе. [ГОСТ Р 57668-2017, пункт 4.10] |
3.4 набор данных (data set): Совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и сформированных для разработки и тестирования программного обеспечения на основе искусственного интеллекта.
Примечание - См. [5].
3.5 обезличивание персональных данных: Действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных.
Примечание - См. [2].
3.6 обратный процесс обезличивания: Действия, в результате которых обезличенные данные принимают вид, позволяющий определить их принадлежность к конкретному субъекту персональных данных, то есть становятся персональными данными.
3.7 оператор: Государственный орган, муниципальный орган, юридическое или физическое лицо, самостоятельно или совместно с другими лицами организующие и (или) осуществляющее обработку персональных данных, а также определяющее цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.
Примечание - См. [2].
Обезличивание набора данных, состоящего из медицинских изображений в формате DICOM, выполняют с целью минимизации ущерба субъектам персональных данных в случае успешной реализации угрозы информационной безопасности, например при передаче набора данных третьей стороне для тестирования СИИ.
Возможная схема реализации процесса обезличивания набора данных при необходимости их передачи третьей стороне приведена на рисунке 1.
В соответствии с [2], [6] и [7] к свойствам обезличенных данных относят следующие параметры:
- полноту (сохранение всей информации о конкретных субъектах или группах субъектов, которая имелась до обезличивания);
- структурированность (сохранение структурных связей между обезличенными данными конкретного субъекта или группы субъектов, соответствующих связям, имеющимся до обезличивания);
- релевантность (возможность обработки запросов по обработке персональных данных и получения ответов в одинаковой семантической форме);
- семантическую целостность (сохранение семантики персональных данных при их обезличивании);
- применимость (возможность решения задач обработки персональных данных, стоящих перед оператором, осуществляющим обезличивание персональных данных, обрабатываемых в информационных системах персональных данных, в том числе созданных и функционирующих в рамках реализации федеральных целевых программ (далее - оператор, операторы), без предварительного обезличивания всего объема записей о субъектах);
- анонимность (невозможность однозначной идентификации субъектов данных, полученных в результате обезличивания, без применения дополнительной информации).
Рисунок 1 - Пример схемы процесса обезличивания набора данных при необходимости их передачи третьей стороне
DICOM-файл медицинского изображения представляет собой объектно-ориентированный файл, включающий информацию о пациенте, проведенном исследовании лучевой диагностики. Данная информация записана в значения соответствующих атрибутов по ГОСТ Р ИСО 12052.
Необходимо выполнить обнаружение всех DICOM атрибутов, содержащих персональные данные.
К персональным данным в соответствии с [8]-[10] относят атрибуты DICOM-файла, приведенные в таблице А.1.
5.1 Общее описание методов
Стандартные методы обезличивания медицинских изображений в формате DICOM реализуют с помощью замены или уничтожения атрибутов, содержащих персональную информацию.
Необходимо выполнить обнаружение всех DICOM атрибутов, содержащих персональные данные, используя данные таблицы А.1, а также изучив данные других DICOM атрибутов.
Состав наборов атрибутов для обезличивания должен быть определен в зависимости от целей тестирования СИИ в соответствии с ГОСТ Р 59921.5.
Существует несколько методов обезличивания данных. Методы, оперирующие с атрибутами DICOM-файла приведены в 5.4.1-5.4.4. Метод обезличивания персональных данных, сохраненных на медицинском изображении, приведен в 5.4.5.
В частных случаях медицинские изображения могут содержать информацию, позволяющую реконструировать фотографию пациента. Это возможно выполнить, например, по данным медицинских изображений головы, полученных с помощью компьютерной томографии и магнитно-резонансной томографии. В таком случае необходимо обеспечить внесение изменений, не затрагивающих целевую область (например, головной мозг), но исключающих возможность восстановления фотографии пациента. Описание данных методов обезличивания не входит в область настоящего стандарта.
Дополнительно следует обращать внимание на медицинские изображения пациентов с инородными телами, позволяющие легко идентифицировать личность (например, отдельные виды пирсинга и т.д.), и исключать данные изображения из наборов данных.
5.2 Требования к квалификации персонала
Оператор, выполняющий обезличивание наборов данных, должен соответствовать требованиям [2], [6] и обладать:
- навыками по определению персональных данных;
- умением определять категории персональных данных;
- умением определять условия, при которых набор персональных данных позволяет точно идентифицировать человека;
- знаниями о принципах, условиях и порядке обработки персональных данных;
- знанием требований по обезличиванию персональных данных;
- умением эксплуатировать средства вычислительной техники;
- умением эксплуатировать программные средства по обезличиванию персональных данных.