Статус документа
Статус документа

ГОСТ Р 71484.1-2024

(ИСО/МЭК 5259-1:2024)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Искусственный интеллект

КАЧЕСТВО ДАННЫХ ДЛЯ АНАЛИТИКИ И МАШИННОГО ОБУЧЕНИЯ

Часть 1

Обзор, терминология и примеры

Artificial intelligence. Data quality for analytics and machine learning. Part 1. Overview, terminology and examples



ОКС 35.020

Дата введения 2025-01-01

Предисловие

1 ПОДГОТОВЛЕН Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 28 октября 2024 г. № 1537-ст

4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 5259-1:2024* "Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 1. Обзор, терминология и примеры" (ISO/IEC 5259-1:2024 "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 1: Overview, terminology, and examples", MOD) путем изменения отдельных фраз (слов, значений, показателей, ссылок), которые выделены в тексте курсивом**. В результате модификации отдельные термины из международного стандарта были приведены в соответствие с терминологией, принятой в российском техническом регулировании.

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.

** В оригинале обозначения и номера стандартов и нормативных документов в разделах "Предисловие", "Введение", приложении ДА и отмеченные в разделе 2 "Нормативные ссылки" знаком "**" приводятся обычным шрифтом; отмеченные в разделе "Предисловие" знаком "***" и остальные по тексту документа выделены курсивом. - Примечания изготовителя базы данных.

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации"***. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)

Введение


Данные являются исходным материалом для аналитики и машинного обучения, а их качество - это критически важный аспект для соответствующей аналитики, а также проектов и систем машинного обучения. Цель серии стандартов ГОСТ Р 71484 - предоставить инструменты и методы для оценки и повышения качества данных, используемых для аналитики и машинного обучения.

В состав серии стандартов ГОСТ Р 71484 входят:

- ГОСТ Р 71484.2 описывает модель качества данных, показатели качества данных и рекомендации по предоставлению сведений о качестве данных в контексте аналитики и машинного обучения. ГОСТ Р 71484.2 опирается на стандарты [1]-[3]. Цель ГОСТ Р 71484.2 заключается в том, чтобы способствовать организациям в достижении ими своих целей в отношении качества данных. Стандарт применим в организациях любого типа;

- ГОСТ Р 71484.3 устанавливает требования и предоставляет рекомендации по установлению, внедрению, поддержанию и постоянному повышению качества данных, используемых в областях аналитики и машинного обучения. ГОСТ Р 71484.3 не дает детального описания процессов, методов и показателей. Данный стандарт определяет требования и дает рекомендации в отношении процесса управления качеством, а также описывает эталонный процесс и методы, которые могут быть адаптированы для выполнения требований, изложенных в этом документе. Требования и рекомендации, изложенные в ГОСТ Р 71484.3, являются типовыми и предназначены для применения в любых организациях независимо от их типа, размера или характера;

- ГОСТ Р 71484.4 описывает общие типовые организационные подходы, не зависящие от типа, размера или характера применяющей их организации и используемые для обеспечения качества данных для обучения и оценки в области аналитики и машинного обучения. Стандарт включает в себя рекомендации:

- по обучению с учителем в отношении разметки данных, используемых для обучения систем МО, включая распространенные организационные подходы к разметке обучающих данных;

- обучению без учителя;

- обучению с частичным привлечением учителя;

- обучению с подкреплением;

- аналитике.

ГОСТ Р 71484.4 применим к данным обучения и оценки, которые поступают из разных источников, включая комплектование и композицию данных, предварительную обработку данных, разметку данных, оценку и использование данных. ГОСТ Р 71484.4 не определяет конкретные услуги, платформы или инструменты;

- [1] описывает структуру стратегического управления качеством данных для аналитики и машинного обучения, дающую возможность органам стратегического управления организации направлять и контролировать внедрение и функционирование показателей обеспечения качества данных, оперативного управления качеством данных и связанных с ними процессов посредством использования адекватных мер контроля и управления в рамках описанной в настоящем стандарте модели жизненного цикла данных;

- [2] описывает структуру визуализации качества данных в аналитике и машинном обучении. Его цель заключается в том, чтобы способствовать использованию заинтересованными сторонами методов визуализации для оценки результатов измерения показателей качества данных. Эта структура визуализации поддерживает достижение целей по обеспечению качества данных.

     1 Область применения

Настоящий стандарт служит основой для концептуального понимания качества данных для аналитики и машинного обучения. В нем также приводятся взаимосвязанные технологии и примеры (например, варианты использования и сценарии применения).

     2 Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ Р ИСО/МЭК 27001 Информационная технология. Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Требования

ГОСТ Р 54911 (ИСО/TR 8000-120:2009) Качество данных. Часть 120. Основные данные. Обмен данными характеристик. Происхождение

ГОСТ Р 70889 (ИСО/МЭК 8183:2023) Информационные технологии. Искусственный интеллект. Структура жизненного цикла данных

ГОСТ Р 71476** (ИСО/МЭК 22989:2022) Информационные технологии. Искусственный интеллект. Концепции и терминология

ГОСТ Р 71484.2 (ИСО/МЭК 5259-2:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 2. Показатели качества данных

ГОСТ Р 71484.3 (ИСО/МЭК 5259-3:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 3. Требования и рекомендации по управлению качеством данных

ГОСТ Р 71484.4 (ИСО/МЭК 5259-4:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

     3 Термины и определения

В настоящем стандарте применены термины по ГОСТ Р 71476 и [3], а также следующие термины с соответствующими определениями:

3.1 жизненный цикл данных (data life cycle, life cycle of data): Все стадии в процессе использования данных от замысла до вывода из эксплуатации.

3.2 создатель данных (data originator): Сторона, которая создала данные и может обладать правами на них.

Примечания

1 Создателем данных может быть физическое лицо.

2 Создатель данных может отличаться от физического или юридического лица, которое упомянуто в данных, описано ими либо явно или неявно связано с ними. Например, создателем данных могут быть собраны персональные данные, идентифицирующие других физических лиц. Эти субъекты персональных данных также могут обладать правами в отношении такого набора данных.

3 Права могут включать право на публичное использование, право на отображение имени, право на идентичность, право запрещать использование данных оскорбительным образом.

4 См. [4], пункт 3.2.

3.3 распорядитель данными (data holder): Сторона, имеющая законную возможность авторизовать обработку данных другими сторонами.

Примечания

1 Распорядителем данными может быть создатель данных (3.2).

2 См. [4], пункт 3.4.

3.4 пользователь данных (data user): Сторона, которая авторизована распорядителем данными выполнять обработку данных.

Примечание - См. [4], пункт 3.5.

3.5 качество данных (data quality): Свойство данных соответствовать требованиям организации к данным в конкретных условиях.

3.6 характеристика качества данных (data quality characteristic): Атрибут данных, имеющий отношение к качеству данных.

Примечание - См. [5], пункт 4.4.

3.7 модель качества данных (data quality model): Заданный набор характеристик, который обеспечивает основу для определения требований к качеству и оценки качества данных.

Примечание - См. [5], пункт 4.6.

3.8 показатель качества данных (data quality measure): Переменная, которой присваивается значение в результате измерения характеристики качества данных.

Примечание - См. [5], пункт 4.5.

3.9 требование к качеству (quality requirement): Требование к характеризующим качество свойствам или атрибутам продукта, данных или услуги информационно-коммуникационных технологий, которые удовлетворяют потребности, вытекающие из цели, для которой этот продукт, данные или услуга информационно-коммуникационных технологий должны использоваться.

Примечание - См. [6], пункт 3.15.

3.10 измерение (measurement): Совокупность операций, имеющих целью определение значения показателя.

Примечание - См. [7], пункт 4.27.

3.11 шкала измерений (measurement scale, quantity-value scale): Упорядоченная совокупность количественных значений величин определенного вида, используемая при ранжировании по значению величин этого вида.

Примеры:

1 Температурная шкала Цельсия.

2 Шкала времени.

3 Шкала твердости С Роквелла.

Примечание - См. [8], пункт 1.28.

3.12

Доступ к полной версии документа ограничен
Этот документ или информация о нем доступны в системах «Техэксперт» и «Кодекс».
Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs