ГОСТ Р 71484.4-2024
(ИСО/МЭК 5259-4:2024)
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Искусственный интеллект
КАЧЕСТВО ДАННЫХ ДЛЯ АНАЛИТИКИ И МАШИННОГО ОБУЧЕНИЯ
Часть 4
Структура процесса управления качеством данных
Artificial intelligence. Data quality for analytics and machine learning. Part 4. Data quality process framework
ОКС 35.020
Дата введения 2025-01-01
1 ПОДГОТОВЛЕН Научно-образовательным центром компетенций в области цифровой экономики Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 28 октября 2024 г. № 1552-ст
4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 5259-4:2024* "Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных" [ISO/IEC 5259-4:2024 "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework", MOD] путем изменения отдельных фраз (слов, значений, показателей, ссылок), которые выделены в тексте курсивом**.
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.
** В оригинале обозначения и номера стандартов и нормативных документов в разделах "Предисловие", приложении ДА и отмеченные в разделе 2 "Нормативные ссылки" знаком "**" приводятся обычным шрифтом; отмеченные в разделе "Предисловие" знаком "***" и остальные по тексту документа выделены курсивом. - Примечания изготовителя базы данных.
Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации"***. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Количество продуктов, систем или решений, связанных с искусственным интеллектом, в последние годы быстро растет. Одна из общих характеристик систем искусственного интеллекта, особенно для систем, использующих машинное обучение с учителем, заключается в том, может ли система искусственного интеллекта обучаться на наборе данных перед развертыванием или ее можно обучать динамически в процессе использования системы.
Общепризнано, что данные играют существенную роль в системах искусственного интеллекта на основе машинного обучения. Для всех подходов к машинному обучению с учителем, без учителя, с частичным привлечением учителя, с подкреплением качество данных может быть главной проблемой при создании и использовании данных для обучения и оценки систем машинного обучения. Как правило, при использовании более точных и богатых данных результаты аналитики и машинного обучения могут быть более полезными и надежными. Кроме того, для разработки систем искусственного интеллекта на основе обучения с учителем необходимы большие объемы размеченных данных для конкретных задач. Это делает аккуратно размеченные данные одним из самых важных ресурсов в сфере искусственного интеллекта. В настоящее время существует проверенный рынок промышленных сервисов и инструментов для разметки обучающих данных. Сегодня этот рынок достигает уровня зрелости, который оправдывает разработку международных стандартов в интересах поставщиков и пользователей этих услуг и инструментов для обеспечения высокого качества размеченных данных.
В настоящем стандарте описывается внедрение единой стандартизированной процедуры обработки данных в отношении качества данных для аналитики и машинного обучения.
В разделе 5 описываются принципы процесса управления качеством данных, в разделе 6 описывается структура процесса управления качеством данных. В разделе 7 описывается процесс управления качеством данных для машинного обучения, в разделе 8 описываются методы и процессы маркировки данных, в разделе 9 описаны роли участников в процессах управления качеством данных, в разделах 10 и 11 описаны особенности процессов управления качеством данных для машинного обучения с частичным привлечением учителя и для обучения с подкреплением. В разделе 12 описывается, как структура процессов управления качеством данных применяется к аналитике.
Настоящий стандарт подробно описывает структуру процессов, которая может быть использована для выполнения требований, указанных в ГОСТ Р 71484.3. Он также показывает связь с процессами, которые отображены в модели жизненного цикла данных в стандарте ГОСТ Р 71484.1.
Настоящий стандарт устанавливает общие организационные подходы, используемые независимо от типа, размера или характера организации, для обеспечения качества данных для обучения и оценки в области аналитики и машинного обучения. Стандарт включает в себя руководство по процессу управления качеством данных для:
- машинного обучения с учителем;
- машинного обучения без учителя;
- машинного обучения с частичным привлечением учителя;
- аналитики.
Настоящий стандарт применим к обучающим и тестовым данным, которые поступают из различных источников, включая сбор и комплектование данных, подготовку данных, разметку данных, оценку и использование данных. Настоящий стандарт не определяет конкретные сервисы, платформы или инструменты.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ Р 54995 Телевидение вещательное цифровое. Требования к кодированию аудио- и видеосигналов для приложений вещания, основанных на транспортных потоках MPEG-2
ГОСТ Р 59926-2021** (ISO/IEC TR 20547-2:2018) Информационные технологии. Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования
ГОСТ Р 71476** (ИСО/МЭК 22989:2022) Искусственный интеллект. Концепции и терминология искусственного интеллекта
ГОСТ Р 71484.1 (ИСО/МЭК 5259-1:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 1. Обзор, термины и примеры
ГОСТ Р 71484.2 (ИСО/МЭК 5259-2:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 2. Показатели качества данных
ГОСТ Р 71484.3 (ИСО/МЭК 5259-3:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 3. Требования и рекомендации по управлению качеством данных
ГОСТ Р ИСО 2859-1** Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Часть 1. Планы выборочного контроля последовательных партий на основе приемлемого уровня качества
ГОСТ Р ИСО/МЭК 17826 Информационные технологии. Интерфейс управления облачными данными (CDMI)
ГОСТ Р ИСО/МЭК 19794-5 Автоматическая идентификация. Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 5. Данные изображения лица
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающая положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1
аутсорсинг (outsourcing): Любая работа (или процесс), передаваемая организацией для исполнения внешней организации. [ГОСТ Р 56398-2015, пункт 3.14] |
3.2 автономная аннотация (stand-off annotation): Аннотация, охватывающая различные слои первичных данных и сериализуемая в документе, отделенном от документа, который содержит первичные данные.
Примечание - См. [1], пункт 2.7.
3.3
служба облачных вычислений (cloud service): Одна или более возможностей, предоставляемых через облачные вычисления, вызываемых посредством определенного интерфейса. [ГОСТ ISO/IEC 17788-2016, пункт 3.2.8] |
3.4 создатель данных (data originator): Сторона, которая создала данные и может обладать правами на них.
Примечания
1 Создателем данных может быть физическое лицо.
2 Создатель данных может отличаться от физического или юридического лица, упомянутого в данных, описанного ими, либо явно или неявно связанного с ними. Например, создателем данных могут быть собраны персональные данные, идентифицирующие других физических лиц. Эти субъекты персональных данных также могут обладать правами в отношении такого набора данных.
3 Права могут включать право на публичное использование, право на отображение имени, право на идентичность, право запрещать использование данных оскорбительным образом.
4 См. [2], пункт 3.2.
3.5
ограничивающий прямоугольник (bounding box): Прямоугольная область, содержащая аннотируемый объект. [ГОСТ Р 70268.2-2022, пункт 3.3] |
3.6 сегментация (segmentation): Процесс отделения интересующих объектов от их окружения.
Примечания
1 Сегментация может применяться к двумерным, трехмерным, растровым или векторным данным.
2. См. [3], пункт 3.1.13
3.7 ключевая точка (key-point): Точка на объекте, представляющая интерес.
В настоящем стандарте применены следующие сокращения:
ИИ | - искусственный интеллект; |
МО | - машинное обучение; |
DLC | - жизненный цикл данных (data life cycle); |
DQPF | - инструментарий управления качеством данных (data quality process framework). |
ГОСТ Р 71484.1 определяет качество данных как характеристику того, что данные соответствуют требованиям организации в конкретных условиях.
Независимо от данных и методологии оценки процесс управления качеством данных для аналитики и машинного обучения должен основываться на общих принципах, которые применяются во всей модели жизненного цикла данных. Организациям следует определять и документировать общие принципы качества данных, принимая во внимание следующие аспекты:
- данные и наборы данных соответствуют конкретной задаче МО или аналитики;