ГОСТ Р 59898-2021
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
ОЦЕНКА КАЧЕСТВА СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Общие положения
Quality assurance of artificial intelligence systems. General
ОКС 11.040.01
Дата введения 2022-03-01
1 РАЗРАБОТАН Федеральным государственным автономным образовательным учреждением высшего образования "Национальный исследовательский университет "Высшая школа экономики" (НИУ ВШЭ)
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 26 ноября 2021 г. 1620-ст
4 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Оценка качества является неотъемлемой частью жизненного цикла систем искусственного интеллекта (СИИ) и включает в себя действия, проводимые на стадиях разработки, создания и эксплуатации данных систем в целях обеспечения необходимого уровня соответствия СИИ установленным требованиям. В зависимости от стадии жизненного цикла оценка качества позволяет:
- определить текущие параметры СИИ и выполнить действия, направленные на повышение ее надежности, производительности, востребованности и целенаправленности, а также расширения функциональности системы (путем выполнения процедур по устранению неисправностей и совершенствованию программного обеспечения);
- удостовериться, что выходные данные СИИ являются приемлемыми и обоснованными для решения поставленной задачи в условиях, представленных в описании СИИ, с учетом современного уровня развития отрасли;
- убедиться в достижении целей предназначения СИИ в условиях обеспечения заданной точности, надежности и достоверности выходных данных;
- подтвердить соответствие характеристик СИИ требуемым значениям, установленным в технической документации и/или нормативных правовых актах.
Отсутствие надлежащей оценки качества систем ИИ может привести к снижению уровня безопасности людей, окружающей природной среды, материальных и нематериальных активов. С другой стороны, наличие грамотно выстроенной системы оценки качества позволяет повысить доверие к системам ИИ на физическом уровне путем подтверждения требований к надежности, безопасности и функциональности.
Настоящий стандарт разработан на основе ГОСТ Р ИСО/МЭК 25010-2015, определяющего общие подходы к оценке качества программных продуктов и преимущественно программных вычислительных систем, но не учитывающего специфику вычислительных алгоритмов и характеристик СИИ.
Настоящий стандарт позволяет дополнить представленный в ГОСТ Р ИСО/МЭК 25010 набор показателей качества специализированными характеристиками (субхарактеристиками) и соответствующими метриками для обеспечения полноценной оценки качества СИИ.
В настоящем стандарте: определено понятие качества СИИ; приведена методология, показатели и критерий оценки качества на стадиях жизненного цикла СИИ; формализована модель качества СИИ; приведена классификация существенных характеристик и показателей качества СИИ.
Настоящий стандарт устанавливает общие требования к оценке качества СИИ, включая:
- виды существенных характеристик СИИ, подтверждение значений которых установленным требованиям обеспечивает доверие к этим системам;
- порядок выбора и оценки метрик качества на основании представленного набора существенных характеристик;
- требования к набору входных и выходных данных для тестирования СИИ;
- вопросы планирования, разработки программы и процедуры оценки качества СИИ в целях подтверждения его надежности, безопасности и функциональности.
Принципы, установленные в стандарте, применимы к СИИ в различных отраслях и их следует придерживаться, насколько это возможно, с учетом отраслевых и национальных регулирующих требований.
Требования к наборам данных и показателям качества СИИ, приведенные в настоящем стандарте, могут быть дополнены требованиями конкретных стандартов в соответствующих областях применения СИИ (например, для оценки биометрических технологий и систем необходимо использовать ГОСТ Р ИСО/МЭК 19795-1, ГОСТ Р 58292, ГОСТ Р ИСО/МЭК 19795-6, ГОСТ Р 58624.1, ГОСТ Р 58667.3).
Настоящий стандарт распространяется на все системы, использующие различные методы искусственного интеллекта (ИИ), включая алгоритмы на основе машинного обучения (обучение по прецедентам) и экспертные системы (на основе дедуктивного обучения), для решения конкретных практически значимых задач. Настоящий стандарт не может быть использован для систем "сильного" или "общего" искусственного интеллекта.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ 34.601 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания
ГОСТ Р 8.673 Государственная система обеспечения единства измерений. Датчики интеллектуальные и системы измерительные интеллектуальные. Основные термины и определения
ГОСТ Р 8.734 Государственная система обеспечения единства измерений. Датчики интеллектуальные и системы измерительные интеллектуальные. Методы метрологического самоконтроля
ГОСТ Р ИСО 5725-1 Точность (правильность и прецизионность) методов и результатов измерений. Часть 1. Основные положения и определения
ГОСТ Р ИСО/МЭК 19795-1 Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 1. Принципы и структура
ГОСТ Р ИСО/МЭК 19795-6 Информационные технологии. Биометрия. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 6. Методология проведения оперативных испытаний
ГОСТ Р ИСО/МЭК 25010 Информационные технологии. Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модели качества систем и программных продуктов
ГОСТ Р 58292 (ИСО/МЭК 19795-2:2007) Информационные технологии. Биометрия. Эксплуатационные испытания и протоколы испытаний в биометрии. Часть 2. Методы проведения технологического и сценарного испытаний
ГОСТ Р 58624.1 Информационные технологии. Биометрия. Обнаружение атаки на биометрическое предъявление. Часть 1. Структура
ГОСТ Р 58667.3 Информационные технологии. Биометрия. Пиктограммы, значки и символы для использования в биометрических системах. Часть 3. Приложения, осуществляющие работу с изображениями лиц
ГОСТ Р 58450 Изделия медицинские с измерительными функциями. Контроль состояния
ГОСТ Р 59276-2020 Системы искусственного интеллекта. Способы обеспечения доверия. Общие положения
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1 аннотирование данных, разметка данных (data annotation): Процесс маркирования данных, выполняемый для того, чтобы сделать данные пригодными для машинного обучения.
3.2 аугментация данных (data augmentation): Процесс создания дополнительного набора данных из имеющегося набора данных.
Примечание - Применяется для увеличения обучающего набора данных путем модификации существующего набора данных.
3.3 базовое значение показателя качества (baseline quality score): Значение показателя качества системы искусственного интеллекта, принятое за основу при сравнительной оценке ее качества.
3.4 безопасность (safety): Свойство системы искусственного интеллекта сохранять состояние, характеризующееся отсутствием недопустимого риска, при использовании ее по назначению в условиях, предусмотренных изготовителем.
3.5 выборка (sample): Набор данных, представляющий собой подмножество генеральной совокупности.
3.6
выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки. Примечания 1 Классификация наблюдения или подмножества выборки как выброс (или выбросы) зависит от выбранной модели генеральной совокупности, из которой отобрана выборка. Выброс не рассматривают как истинный элемент генеральной совокупности. 2 Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений. 3 Подмножество может содержать одно или несколько наблюдений. [ГОСТ Р ИСО 16269-4-2017, статья 2.2] |
3.7 генеральная совокупность (general sample): Репрезентативное множество всех возможных прецедентов.
3.8
искусственный интеллект; ИИ: Способность технической системы имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. [ГОСТ Р 59276-2020, статья 3.6] |
3.9 качество (quality): Совокупность характеристик и свойств СИИ, обусловливающих ее способность удовлетворять установленным или предполагаемым требованиям в соответствии с ее назначением.
3.10 критерий оценки качества (quality assessment criterion): Набор определенных и задокументированных правил и условий, которые используются для решения о приемлемости общего качества конкретной СИИ.
3.11
метаданные (metadata): Данные о данных или элементах данных, которые могут включать описание, а также сведения о владельце данных, путях доступа к ним, правах доступа и изменчивости данных. [ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.24] |
3.12 метрика (metric): Материальная мера некоторых аспектов характеристик качества.
3.13 набор данных (dataset): Совокупность данных, в том числе соответствующих им метаданных, организованных по определенным правилам и принципам описания.
Примечание - В зависимости от цели применения набор данных может быть представлен следующими типами данных: текстовыми записями, временными рядами, изображениями, видео, сигналами и т.п.
3.14
обогащенные данные: Данные, объединенные или дополненные логически связанными данными, полученными от других поставщиков данных, а также данные, полученные в результате объединения по различным признакам и категориям. [ГОСТ 59237-2020*, статья 18] |
________________
* Вероятно, ошибка оригинала. Следует читать: ГОСТ Р 59237-2020. - Примечание изготовителя базы данных.
3.15
показатель качества системы искусственного интеллекта: Степень соответствия представительного набора существенных (значимых) характеристик системы искусственного интеллекта требованиям, то есть потребностям или ожиданиям, которые установлены, обычно предполагаются или являются обязательными для этой системы. [ГОСТ Р 59276-2020, статья 3.9] |
3.16 оценка качества (quality assurance): Совокупность операций, включающих выбор номенклатуры показателей качества, определение значений этих показателей и сравнение их с базовыми значениями.
3.17
предвзятость, необъективность (bias): Свойство системы искусственного интеллекта, заключающееся в принятии ошибочных решений, связанных со статистической смещенностью обучающей выборки исходных данных или необъективностью применяемых при ее создании результатов экспертной работы. [ГОСТ Р 59276-2020, статья 3.11] |