ГОСТ Р 70889-2023
(ИСО/МЭК 8183:2023)
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Информационные технологии
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
Структура жизненного цикла данных
Information technology. Artificial intelligence. Data life cycle framework
ОКС 35.020
Дата введения 2024-01-01
1 ПОДГОТОВЛЕН Научно-образовательным центром компетенций в области цифровой экономики Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ООО "ИРИО") на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 2 ноября 2023 г. N 1327-ст
4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 8183:2023* "Информационные технологии. Искусственный интеллект. Структура жизненного цикла данных" (ISO/IEC 8183:2023 "Information technology - Artificial intelligence - Data life cycle framework", MOD) путем изменения отдельных фраз (слов, значений показателей, ссылок), которые выделены в тексте курсивом**.
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.
** В оригинале обозначения и номера стандартов и нормативных документов приводятся обычным шрифтом, кроме отмеченного в разделе "Предисловие" знаком "**". - Примечания изготовителя базы данных.
Внесение указанных технических отклонений направлено на учет особенностей национальной стандартизации технологий работы с большими данными и искусственного интеллекта
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации"**. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Системы искусственного интеллекта внедряются организациями всех типов, размеров и целей. Данные необходимы для разработки и эксплуатации систем искусственного интеллекта.
В области систем искусственного интеллекта имеется большое число жизненных циклов данных, используемых и рассматриваемых для различных целей (например, для оценки качества данных, систематических ошибок в данных, управления данными, разработки и использования систем искусственного интеллекта). Без всеобъемлющей структуры эти различные жизненные циклы данных могут быть сложны для правильной интерпретации теми, кто не имеет предварительных знаний, контекста и опыта. Существует риск того, что многочисленные жизненные циклы данных не будут применяться должным образом.
В настоящем стандарте приведен обзор стадий жизненного цикла данных в составе жизненного цикла системы искусственного интеллекта (см. раздел 5), описаны данные стадии (см. раздел 6) и предоставлены дополнительные сведения о процессах, связанных с ними (см. раздел 7).
Настоящий стандарт определяет возможные стадии и связанные с ними действия по обработке данных на всем жизненном цикле системы искусственного интеллекта, включая комплектование, создание, разработку, развертывание, техническую поддержку и вывод из эксплуатации. Настоящий стандарт не определяет конкретные сервисы, платформы или инструменты. Данный стандарт применим ко всем организациям, независимо от их типа, размера и характера, которые используют данные при разработке и использовании систем искусственного интеллекта.
В настоящем стандарте нормативные ссылки отсутствуют.
В настоящем стандарте применены термины по [1].
В настоящем стандарте применены следующие сокращения:
ИИ | - | скусственный интеллект; |
МО | - | машинное обучение; |
ПДн | - | персональные данные; |
DPIA | - | оценка воздействия обработки ПДн на права и свободы субъекта данных (data protection impact assessment); |
JSON | - | текстовый формат описания объектов JavaScript (JavaScript object notation); |
OWL | - | язык веб-онтологий (web ontology language); |
XML | - | расширяемый язык разметки (extensible markup language). |
Жизненный цикл данных для систем искусственного интеллекта включает в себя процессы работы с данными от первоначального замысла создания новой системы ИИ до окончательного вывода этой системы из эксплуатации и разделен на несколько отдельных стадий. Каждая из этих стадий - часто, но не всегда - будет частью жизненного цикла данных в системе ИИ.
Жизненный цикл данных представляет собой все стадии, через которые данные могут проходить в системе ИИ, оперирующей данными произвольного типа. Он предназначен для поддержки достижения целей, связанных с управлением системой, полезностью системы, качеством данных и безопасностью данных, путем обеспечения того, чтобы обработке данных уделялось должное внимание при планировании, разработке, использовании и выводе системы из эксплуатации.
Детальное предназначение и последовательность прохождения этих стадий на протяжении жизненного цикла зависят от множества факторов, включая социальные, коммерческие, организационные и технические соображения, каждый из которых может меняться или иногда сочетаться с другими стадиями в течение жизненного цикла системы ИИ. Настоящий стандарт описывает следующие 10 стадий:
- стадия 1 - замысел;
- стадия 2 - формирование деловых требований;
- стадия 3 - планирование работы с данными;
- стадия 4 - комплектование наборов данных;
- стадия 5 - подготовка наборов данных;
- стадия 6 - построение модели ИИ;
- стадия 7 - развертывание системы ИИ;
- стадия 8 - эксплуатация системы ИИ;
- стадия 9 - вывод данных из эксплуатации;
- стадия 10 - вывод системы ИИ из эксплуатации.
Сведения о жизненном цикле данных при их использовании приведены в [2].
6.1 Общие положения
Структура жизненного цикла данных на рисунке 1 идентифицирует множество концептуально различных стадий оперирования данными в системе ИИ - от планирования работы с данными до вывода данных из эксплуатации. Рисунок 1 также включает замысел, формирование деловых требований и вывод системы ИИ из эксплуатации, которые относятся к стадиям жизненного цикла системы.
Сведения о наборах данных приведены в [3] (пункт 6.5). С каждой стадией жизненного цикла соотносятся процессы, соответствующие определенной задаче. Процессы жизненного цикла описывают действия с данными на конкретной стадии.
Стадия 9 (вывод данных из эксплуатации) и стадия 10 (вывод системы ИИ из эксплуатации) относятся к выводу из эксплуатации, но стадия 9 конкретно описывает, что происходит с данными (например, безопасное удаление, архивирование, перепрофилирование), а стадия 10 описывает, что происходит с системой независимо от того, что происходит с обрабатываемыми данными.