ГОСТ Р 71484.3-2024
(ИСО/МЭК 5259-3:2024)
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Искусственный интеллект
КАЧЕСТВО ДАННЫХ ДЛЯ АНАЛИТИКИ И МАШИННОГО ОБУЧЕНИЯ
Часть 3
Требования и рекомендации по управлению качеством данных
Artificial intelligence. Data quality for analytics and machine learning. Part 3. Data quality management requirements and guidelines
ОКС 35.020
Дата введения 2025-01-01
1 ПОДГОТОВЛЕН Научно-образовательным центром компетенций в области цифровой экономики Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 28 октября 2024 г. № 1538-ст
4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 5259-3:2024* "Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 3. Требования и рекомендации по управлению качеством данных" (ISO/IEC 5259-3:2024 "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 3: Data quality management requirements and guidelines", MOD) путем изменения отдельных фраз (слов, значений, показателей, ссылок), которые выделены в тексте курсивом**.
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.
** В оригинале обозначения и номера стандартов и нормативных документов в разделах "Предисловие", 2 "Нормативные ссылки", приложении ДА приводятся обычным шрифтом; отмеченные в разделах "Предисловие", 2 "Нормативные ссылки" знаком "**" и остальные по тексту документа выделены курсивом. - Примечания изготовителя базы данных.
Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации"**. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Качество продуктов и услуг на основе аналитики и машинного обучения зависит от качества данных, используемых для обучения моделей машинного обучения. Следовательно, управление качеством данных имеет важное значение, поскольку оно часто помогает обеспечить успех аналитики и использования технологий машинного обучения.
Внедрение системы управления качеством данных облегчает управление качеством продуктов и услуг, в которых используются технологии аналитики и машинного обучения. Настоящий стандарт определяет терминологию, требования и рекомендации по обмену информацией, а также процедур по согласованию и по управлению качеством данных. Система управления качеством данных обеспечивает прозрачность и возможность проверки посредством самооценки или оценки третьей стороной. Это способствует удовлетворению интересов заинтересованных сторон, а также позволяет управлять требованиями к качеству, производительности и представлению данных. В частности, настоящий стандарт определяет требования к системе управления качеством данных со ссылками на показатели качества данных, которые применимы к наиболее часто используемым технологиям аналитики и машинного обучения.
Поскольку требования к качеству данных различаются в зависимости от контекста и сферы применения, в настоящем стандарте представлен типовой набор требований и рекомендаций, относящийся к общим стадиям жизненного цикла данных. Жизненный цикл данных, как правило, тесно интегрирован с сопутствующим жизненным циклом системы искусственного интеллекта и, следовательно, имеет несколько взаимозависимостей. Настоящий стандарт не предписывает, какой жизненный цикл для системы искусственного интеллекта следует использовать. Вместо этого он предоставляет общие рекомендации, которые позволяют гибко сочетать несколько моделей жизненного цикла при условии, что процессы жизненного цикла могут быть сопоставлены.
Настоящий стандарт является частью серии стандартов ИСО/МЭК 5259. Другие части данной серии включают следующие стандарты:
- ИСО/МЭК 5259-1 Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 1. Обзор, терминология и примеры;
- ISO/IEC FDIS 5259-2 Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 2. Показатели качества данных;
- ИСО/МЭК 259-4 Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Инструментарий для мониторинга качества данных;
- ISO/IEC FDIS 5259-5 Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 5. Управление качеством данных [1];
- ISO/IEC CD TR 5259-6 Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 6. Структура визуализации качества данных [2].
Настоящий стандарт устанавливает требования и дает рекомендации по созданию, внедрению, поддержанию и постоянному улучшению качества данных, используемых для аналитики и машинного обучения.
Настоящий стандарт не описывает детально процессы, методы или показатели, но определяет требования и рекомендации для процесса управления качеством, а также перечень эталонных процессов и методов, которые могут быть адаптированы для соответствия требованиям данного стандарта.
Требования и рекомендации, изложенные в настоящем стандарте, являются типовыми и применимы к любой организации, независимо от размера, типа и рода деятельности.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ Р 71476 (ИСО/МЭК 22989:2022) Искусственный интеллект. Концепции и терминология искусственного интеллекта
ГОСТ Р 71484.1 (ИСО/МЭК 5259-1:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 1. Обзор, термины и примеры
ГОСТ Р 71484.4** (ИСО/МЭК 5259-4:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных
ГОСТ Р ИСО 9001** Системы менеджмента качества. Требования
ГОСТ Р ИСО/МЭК 42001** Искусственный интеллект. Система управления
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1 заявление о качестве данных (data quality claim): Утверждение о том, в какой степени данные удовлетворяют требованиям к качеству.
3.2 план управления качеством данных (data quality plan): Описание методов, процессов и способов распределения ресурсов для достижения целей в области качества данных как результата планирования качества данных.
3.3 планирование качества данных (data quality planning): Сформулированное в результате планирования описание методов, процессов и способов распределения ресурсов для достижения целей качества данных.
3.4
соглашение о взаимодействии при разработке (development interface agreement, DIA): Соглашение между заказчиком и поставщиком, в котором указывается ответственность за действия, доказательства или результаты работы, подлежащие обмену между сторонами и связанные с разработкой изделий или элементов. Примечание - Соглашение о взаимодействии при разработке относится к стадии разработки, тогда как договор на поставку относится к стадии производства. [ГОСТ Р ИСО 26262-1-2020, раздел 3.32] |
В настоящем стандарте применены следующие сокращения:
ИИ - искусственный интеллект;
МО - машинное обучение.
Настоящий стандарт может применяться в одном или нескольких случаях, например:
- организацией для создания и адаптации процесса управления качеством данных при использовании данных в аналитике и машинном обучении, а также для постоянного улучшения процессов;
- в проекте машинного обучения для определения, отслеживания и оценки требований к качеству данных;
- пользователем данных и обладателем данных для совместного определения характеристик качества данных и обеспечения соблюдения согласованных требований, что облегчает заключение соглашения о передаче данных.
Примечание - Организация может запросить гарантии конфиденциальности и доказательства, подтверждающие надлежащее использование.
Целью процесса управления качеством данных является реализация приемлемых (т.е. повторяемых и проверяемых) процессов для обеспечения качества данных и надежного удовлетворения заданному набору требований, установленных организацией.
Качество данных влияет на результаты аналитики и использования алгоритмов машинного обучения. Качество данных зависит от внутренне присущих характеристик и системно-зависимых характеристик. Данные могут подходить для одного приложения, но не подходить для другого. Настоящий стандарт помогает установить и поддерживать качество данных для каждого приложения аналитики и машинного обучения.
6.3.1 Общие положения
Следующие требования и рекомендации применимы ко всей организации.
6.3.2 Культура качества данных
Организация должна поддерживать культуру качества данных. Организация должна:
a) иметь правила и процессы, способствующие достижению качества (согласно настоящему стандарту), с учетом модели качества данных, применяемых к соответствующим продуктам и услугам;
b) определять и внедрять процессы управления качеством данных и выполнять соответствующие мероприятия по обеспечению качества данных;
c) интегрировать процессы и действия по управлению качеством данных, насколько это возможно, в другие процессы и мероприятия по управлению, такие как общее управление качеством и управление рисками;
d) документировать выполненные действия;
e) предоставлять ресурсы, достаточные для управления качеством данных;
f) контролировать и, по мере необходимости, анализировать и совершенствовать процессы управления качеством данных;
g) предоставлять требуемые полномочия персоналу, участвующему в процессе обеспечения качества;
h) доводить до сведения сотрудников политику обеспечения качества данных внутри организации.
6.3.3 Решение проблемных вопросов, связанных с качеством данных
Организация должна обеспечивать соответствие требованиям, связанным с качеством данных, посредством:
a) реализации процессов информирования, анализа, оценки, решения и закрытия вопросов;
b) документирования вопросов, связанных с качеством данных;
c) делегирования вопросов, которые не удается решить, или их эскалации на более высокий уровень управления для урегулирования.
Примечания