ПНСТ 845-2023
ПРЕДВАРИТЕЛЬНЫЙ НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Искусственный интеллект
ТЕХНИЧЕСКАЯ СТРУКТУРА ФЕДЕРАТИВНОЙ СИСТЕМЫ МАШИННОГО ОБУЧЕНИЯ
Artificial intelligence. Technical framework for a shared machine learning system
ОКС 35.020
Срок действия с 2024-02-01
до 2027-02-01
1 РАЗРАБОТАН Научно-образовательным центром компетенций в области цифровой экономики Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО)
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 13 декабря 2023 г. N 92-пнст
4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта МСЭ F.748.13 (2021)* "Техническая структура федеративной системы МО" (Recommendation ITU-T F.748.13 (2021), Technical framework for a shared machine learning system, NEQ)
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.
Правила применения настоящего стандарта и проведения его мониторинга установлены в ГОСТ Р 1.16-2011 (разделы 5 и 6).
Федеральное агентство по техническому регулированию и метрологии собирает сведения о практическом применении настоящего стандарта. Данные сведения, а также замечания и предложения по содержанию стандарта можно направить не позднее чем за 4 мес до истечения срока его действия разработчику настоящего стандарта по адресу: 119991 Москва, Ленинские горы, д.1 и в Федеральное агентство по техническому регулированию и метрологии по адресу: 123112 Москва, Пресненская набережная, д.10, стр.2.
В случае отмены настоящего стандарта соответствующая информация будет опубликована в ежемесячном информационном указателе "Национальные стандарты" и также будет размещена на официальном сайте Федерального агентства по техническому регулированию и метрологии (www.rst.gov.ru)
Настоящий стандарт определяет роли, устанавливает технические требования и требования по безопасности для федеративной системы машинного обучения, а также описывает технические архитектуры, функциональные компоненты и процедуры обработки федеративной системы машинного обучения при централизованном и децентрализованном режимах работы.
В настоящий стандарт включены дополнительные по отношению к МСЭ F.748.13 определения и положения, приведенные в [1]. Это позволяет гармонизировать настоящий стандарт с принятыми ранее национальными стандартами и предварительными национальными стандартами в области искусственного интеллекта.
Доступ к МСЭ F.748.13 можно получить по адресу: http://handle.itu.int/ (уникальный идентификатор - http://handle.itu.int/11.1002/1000/14682).
Все рекомендации МСЭ и другие источники могут быть пересмотрены, поэтому пользователям настоящего стандарта предлагается изучить возможность применения последнего издания рекомендаций и других справочных документов (перечень действующих в настоящее время рекомендаций МСЭ регулярно публикуется). Ссылка на рекомендацию МСЭ в рамках настоящего стандарта не придает ему как отдельному документу статус стандарта.
В настоящем стандарте установлено понятие федеративной системы машинного обучения, а также определены роли, технические требования и требования по безопасности, технические архитектуры, функциональные компоненты и процедуры обработки федеративной системы машинного обучения при централизованном и децентрализованном режимах работы. В приложении А также приведено описание вариантов использования федеративных систем машинного обучения.
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 машинное обучение (machine learning): Процесс оптимизации параметров модели с помощью вычислительных методов таким образом, чтобы поведение модели отражало данные и/или опыт.
Примечание - См. [1], пункт 3.3.5.
2.2 доверенная среда исполнения (trusted execution environment): Защищенная область процессора, которая обеспечивает хранение, обработку и защиту данных и целостность исполняемого кода в изолированной и надежной среде.
Примечание - Такая среда поддерживает изолированное защищенное выполнение авторизованного программного обеспечения системы безопасности, которое позволяет обеспечить сквозную безопасность посредством исполнения в защищенном режиме аутентифицированного кода и обеспечения конфиденциальности, аутентичности, защиты персональных данных, целостности системы и прав доступа к данным.
Примечание - См. [2], пункт 3.2.9.
2.3 федеративное (совместное) машинное обучение (shared machine learning): Парадигма машинного обучения, позволяющая агрегировать принадлежащие ряду сторон данные и обеспечивать многостороннюю защиту персональных данных в тех ситуациях, когда различные поставщики данных и вычислительная платформа не доверяют друг другу.
2.4 безопасные многосторонние вычисления (multi-party computation): Подраздел криптографии, занимающийся созданием методов, позволяющих сторонам совместно вычислять значение функции на основе индивидуально хранимых сторонами частей входных данных, сохраняя при этом конфиденциальность этих частей входных данных.
2.5 удаленная аттестация (remote attestation): Метод, с помощью которого вычислительный узел (клиент) осуществляет аутентификацию конфигурации своего оборудования и программного обеспечения для удаленного вычислительного узла (сервера).
Примечание - Цель удаленной аттестации - дать возможность одной удаленной системе (запрашивающей доказательства) определить уровень доверия к целостности платформы другой системы (заявляющей о такой целостности).
В настоящем стандарте применены следующие сокращения:
МО | - машинное обучение;
|
API | - интерфейс программирования приложений (application programming interface);
|
QPS | - количество запросов в секунду (queries per second);
|
SML | - федеративное машинное обучение (shared machine learning);
|
SMS | - служба коротких сообщений (short messaging service);
|
TEE | - доверенная среда исполнения (trusted execution environment);
|
WOE | - весомость доказательств (weight of evidence). |
В настоящем стандарте:
- ключевые слова "требуется, чтобы" означают требование, которое должно строго соблюдаться и отклонение от которого не допускается, если будет сделано заявление о соответствии настоящему стандарту;
- ключевое слово "рекомендуется" означает требование, которое рекомендуется, но не является абсолютно необходимым. Таким образом это требование не является обязательным для заявления о соответствии настоящему стандарту;
- ключевые слова "может опционально" означают необязательное требование, которое является допустимым, но при этом не подразумевается, что оно в каком-либо смысле рекомендуется. Данная формулировка не подразумевает ни обязанности предлагаемого поставщиком варианта реализации предоставить такую опцию, ни возможности опционального подключения такой функциональной возможности оператором сети/поставщиком услуг. Она означает то, что поставщик может опционально предоставить эту функциональную возможность и по-прежнему заявлять о соответствии спецификации.
В федеративных системах МО несколько участников совместно используют зашифрованные данные и/или обмениваются параметрами моделей с целью обеспечить безопасность данных и защиту персональных данных. Для обеспечения наиболее эффективного использования данных зашифрованные данные каждой стороны и/или предоставленные ею параметры моделей собираются и используются для обучения модели федеративного МО. Модели федеративного МО продолжают обучаться для самооптимизации, а участники или иные лица, авторизованные на доступ к модели, могут вводить информацию для получения результатов или прогнозов на основе совместно используемых значений. Федеративные системы МО могут, например, применяться (не ограничиваясь ими) в мультимедийных и игровых приложениях.
Федеративное МО может использоваться в централизованном и децентрализованном режимах. Централизованный режим - это решение для многостороннего совместного использования зашифрованных данных и для обучения на результатах слияния данных в доверенной среде исполнения. Децентрализованный режим - это решение для совместного использования и обучения несколькими участниками, основанное на безопасных многосторонних вычислениях, при котором осуществляется обмен неоригинальными данными, не раскрывающими персональные данные.
При использовании централизованного режима сбор данных и обучение на них осуществляет доверенная третья сторона. Данный режим можно применять в тех ситуациях, когда участники готовы обмениваться данными, не содержащими персональные данные, а стоимость доступа к услугам низкая. Его также можно применять в тех случаях, когда требуется проведение сложных вычислений. В централизованном режиме могут также поддерживаться любые алгоритмы, развертывание кластера и централизованные вычисления.
При использовании децентрализованного режима применяют методы безопасных многосторонних вычислений для обмена данными или параметрами моделей с целью выполнения задач обучения. Данный режим можно применять в тех ситуациях, в которых участникам требуется строгая защита персональных данных или когда у участников имеются большие объемы локальных данных, так как в рамках обучения модели МО стороны обмениваются параметрами моделей, а не исходными данными. Безопасные многосторонние вычисления подходят в случае простых вычислений, так как они способны поддерживать меньше алгоритмов по сравнению с решением на основе доверенной среды исполнения.
6.1 Обзор
Роли в федеративной системе МО и взаимодействие между ними показаны на рисунке 1.
В федеративной системе МО участники могут выполнять ряд ролей, включая роли инициатора задачи, поставщика данных, вычислительной платформы и получателя результатов. Следует иметь в виду, что, хотя на рисунке 1 показаны только два поставщика данных, однако при реальном развертывании решения таких поставщиков данных может быть много. Одна и та же сторона может выступать в качестве исполнителя нескольких ролей, например: один из поставщиков данных может быть инициатором задачи и/или получателем результата.
Рисунок 1 - Роли в федеративной системе МО
6.2 Поставщик данных
Поставщик данных является обладателем данных и предоставляет их в качестве входных данных вычислительной платформе или другому поставщику данных. Следует обратить внимание на то, что поставщики данных также располагают вычислительными ресурсами.
В централизованном режиме данные шифруются и передаются от поставщика данных вычислительной платформе.
В децентрализованном режиме проводится обработка конфиденциальных сведений и/или параметров модели, обмен которыми осуществляется между поставщиками данных при координации со стороны вычислительной платформы.
И в том, и в другом режиме обмениваемые данные представляют собой полученные в результате расчетов коэффициенты, а не сами исходные данные. Ни у платформы вычислений, ни у поставщиков данных не должно быть возможности получить какую-либо информацию об исходных данных из этих коэффициентов.
6.3 Вычислительная платформа
Вычислительная платформа получает от инициатора задачи запрос на выполнение задачи и отправляет зашифрованный результат получателю. Она взаимодействует с поставщиками данных с целью выполнения вычислительных задач.
В централизованном режиме вычислительная платформа получает зашифрованные данные от поставщиков данных, расшифровывает их и выполняет вычисления в доверенной среде исполнения.
В децентрализованном режиме вычислительная платформа распределяет выполнение вычислительной задачи между участниками и координирует деятельность поставщиков данных по обмену параметрами и/или конфиденциальными сведениями между собой и по индивидуальному выполнению вычислительных задач.
Вычислительная платформа объединяет вычислительные алгоритмы.
6.4 Получатель результата
В централизованном режиме по завершении вычислительной задачи вычислительная платформа посылает зашифрованный результат получателю, который может его расшифровать и получить окончательный результат.
В децентрализованном режиме поставщики данных посылают результаты вычислений получателю, который их объединяет и получает окончательный результат.
Роль получателя результатов может выполняться и поставщиками данных, и инициатором задачи, и вычислительной платформой.
6.5 Инициатор задачи
Инициатор задачи инициирует вычислительную задачу на вычислительной платформе.
Роль инициатора задачи может выполняться вычислительной платформой или поставщиками данных.