Статус документа
Статус документа


ГОСТ Р 71484.2-2024

(ИСО/МЭК 5259-2:2024)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Искусственный интеллект

КАЧЕСТВО ДАННЫХ ДЛЯ АНАЛИТИКИ И МАШИННОГО ОБУЧЕНИЯ

Часть 2

Показатели качества данных

Artificial intelligence. Data quality for analytics and machine learning. Part 2. Data quality measures



ОКС 35.020

Дата введения 2025-01-01

Предисловие

1 ПОДГОТОВЛЕН Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 28 октября 2024 г. № 1551-ст

4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 5259-2:2024* "Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 2. Показатели качества данных" (ISO/IEC 5259-2:2024 "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 2: Data quality measures", MOD) путем изменения отдельных фраз (слов, значений, показателей, ссылок), которые выделены в тексте курсивом.

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

** В оригинале обозначения и номера стандартов и нормативных документов в разделе "Предисловие", приложении ДА и отмеченные в разделе 2 "Нормативные ссылки" и п.п. 3.19, 3.21 знаком "**" приводятся обычным шрифтом; отмеченные в разделе "Предисловие" знаком  "***" и остальные по тексту документа выделены курсивом; в примере в п. 6.2.4.1 - полужирным курсивом. - Примечания изготовителя базы данных.

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ "О стандартизации в Российской Федерации"***. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)

Введение


Ввиду того, что сегодня решения все активнее принимаются на основе данных, встают новые задачи по управлению качеством данных в области аналитики и искусственного интеллекта на основе машинного обучения. Проблемы с качеством данных, такие как неполные, ложные или устаревшие данные, могут отрицательно повлиять на процессы и результаты аналитики и машинного обучения. Данные из различных источников, включая структурированные данные (например, содержащиеся в реляционных базах данных) и неструктурированные данные (например, документы, изображения, аудио), могут быть напрямую использованы в жизненном цикле данных для аналитики и разработки моделей машинного обучения. Данные преобразуются на каждом этапе жизненного цикла данных аналитики и машинного обучения. Чтобы анализ данных и модели машинного обучения были безопасными, надежными и совместимыми, необходим целостный стандартизированный подход к контролю, производству и поставке достаточного количества высококачественных данных. Для разработки надежного управления качеством данных для аналитики и машинного обучения можно рассмотреть внутренние международные стандарты качества данных, включая концепции и варианты использования, характеристики и измерения, требования к управлению и структуру процессов.

Настоящий стандарт является частью серии ИСО/МЭК 5259 и основан на серии стандартов ИСО 8000, ИСО/МЭК 25012 и ИСО/МЭК 25024. Целью настоящего стандарта является описание модели качества данных посредством определения характеристик качества данных и показателей качества данных на основе ИСО/МЭК 25012 и ИСО/МЭК 25024. Модели качества данных могут быть расширены или изменены в соответствии с настоящим стандартом.

     1 Область применения

В настоящем стандарте представлена модель качества данных, показатели качества данных и рекомендации по составлению отчетов о качестве данных для аналитики и машинного обучения.

Документ применим для всех типов организаций, которые хотят достичь своих целей в области качества данных.

     2 Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ Р 70889-2023 (ИСО/МЭК 8183:2023) Информационные технологии. Искусственный интеллект. Структура жизненного цикла данных

ГОСТ Р 71476** (ИСО/МЭК 22989:2022) Искусственный интеллект. Концепции и терминология искусственного интеллекта

ГОСТ Р 71484.1-2024** (ИСО/МЭК 5259-1:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 1. Обзор, терминология и примеры

ГОСТ Р 71484.3 (ИСО/МЭК 5259-3:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 3. Требования и рекомендации по управлению качеством данных

ГОСТ Р 71484.4 (ИСО/МЭК 5259-4:2024) Искусственный интеллект. Качество данных для аналитики и машинного обучения. Часть 4. Структура процесса управления качеством данных

ГОСТ Р ИСО/МЭК 25000 Требования и оценка качества систем и программных средств (SQuaRE). Руководство

ГОСТ Р ИСО/МЭК 25010 Информационные технологии. Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модели качества систем и программных продуктов

ГОСТ Р ИСО/МЭК 25020-2023 Системная и программная инженерия. Требования и оценка качества систем и программной продукции (SQuaRE). Основные принципы измерения качества

ГОСТ Р ИСО/МЭК 29100 Информационная технология. Методы и средства обеспечения безопасности

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающая положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

     3 Термины и определения

В настоящем стандарте применены термины по ГОСТ Р 71476, а также следующие термины с соответствующими определениями:

3.1

данные (data): Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.

Примечание - Данные могут быть обработаны автоматически или вручную.

[ГОСТ Р ИСО/МЭК 20546-2021, пункт 3.1.5]

3.2 фрейм данных (data frame): Множество записей данных с общей структурой элементов данных, связанных с определенной предметной областью или предназначением.

Примечание - Фрейм данных является двумерным, как таблица со строками и столбцами. Этот термин специально используется в аналитике и машинном обучении, например, в языке R, в то время как в других языках термин "набор данных" означает то же самое. В настоящем стандарте термин "набор данных" имеет более общее значение.

3.3 тип данных (data type): Категоризация абстрактного набора возможных значений, характеристик и набора операций для атрибута.

Примечания

1 Примерами типов данных являются строки символов, тексты, даты, числа, изображения, звуки и т.д.

2 См. [1], пункт 4.16.

3.4 значение данных (data value): Содержимое элемента данных.

Примечания

1 В [2], пункт 5.1.1 указано, что качество данных является внутренне присущей характеристикой самих данных, такой как допустимые значения данных и возможные ограничения.

2 Номер или категория, присвоенные атрибуту сущности путем проведения измерения.

3 См. [1], пункт 4.17.

3.5 пустой элемент данных (empty data item): Элемент данных, содержимое которого (3.4) имеет пустое значение, т.е. Null или None.

Примечание - Это определение в целом означает отсутствие значения данных (т.е. значение NULL или None). Элемент данных со строковым типом данных может быть пустым элементом данных, использующим либо пустую строку, либо значение Null. Однако есть исключение для некоторых приложений: строка может быть пустой (например, ""), но не нулевой и, следовательно, не подразумевает пустого элемента данных.

3.6 сущность (entity): Конкретная или абстрактная вещь в рассматриваемой предметной области.

3.7 необработанные данные (raw data): Данные в первоначально полученной, прямой форме из источника перед последующей обработкой.

Примечание - См. [3], пункт 3.1.10.04.

3.8 целевые данные (target data): Данные, используемые в задаче аналитики или машинного обучения, качество которых измеряется.

3.9 целевая аудитория (target population): Генеральная совокупность, в отношении которой необходимо сделать выводы в проекте аналитики данных или машинного обучения.

3.10 предмет качества данных (data quality subject): Сущность, на которую влияет качество данных.

3.11

элемент показателя качества (quality measure element): Показатель, определенный в терминах свойства и метода измерения для количественного определения этого свойства, включая выборочно преобразования с помощью математической функции.

[ГОСТ Р ИСО/МЭК 25021-2014, пункт 4.14]

3.12 количество (quantity): Свойство явления, тела или вещества, когда свойство имеет величину, которая может быть выражена количественно в виде числа с указанием отличительного признака как основы для сравнения.

Примечание - См. [4], пункт 1.1.

3.13 значение количества (quantity value): Число с указанием основы для сравнения, выражающее размер величины количества.

Примечание - См. [4], пункт 1.1.

3.14

функция измерения (measurement function): Алгоритм или вычисление, выполняемое для комбинации не менее чем двух элементов показателя качества.

[ГОСТ Р ИСО/МЭК 25023-2021, пункт 4.6]

3.15 результат измерения (measurement result, result of measurement): Набор значений количества, приписываемых измеряемой величине вместе с любой другой доступной и существенной информацией.

Примечание - См. [4], пункт 2.9.

3.16

показатель (measure): Переменная, которой присваивается какое-то значение как конкретный результат измерения.

Примечание - Форма множественного числа "показатели" используется для ссылки на основные показатели, производные показатели и индикаторы.

[ГОСТ Р 58606-2019, пункт 3.15]

3.17

измерять (measure): Производить измерение.

[ГОСТ Р ИСО/МЭК 25000-2021, пункт 4.19]

Доступ к полной версии документа ограничен
Этот документ или информация о нем доступны в системах «Техэксперт» и «Кодекс».
Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs