Статус документа

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021 Информационные технологии (ИТ). Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

4.2 Классификация методов

Следуя описанному выше рабочему процессу определения робастности, в настоящем стандарте представлены методы и метрики, применимые к различным типам тестирования, то есть статистические, формальные и эмпирические методы.

Статистические подходы, как правило, основаны на математической оценке некоторых наборов данных, способствуя обеспечению определенного уровня достоверности результатов. Формальные методы полагаются на надежное формальное доказательство, чтобы продемонстрировать математическое свойство в предметной области. В настоящем стандарте формальные методы не ограничены областью синтаксической теории доказательств и включают методы проверки корректности, такие как проверка модели. Эмпирические методы базируются на экспериментах, наблюдениях и экспертных оценках.

Несмотря на то что систему можно охарактеризовать посредством наблюдения или доказательства, в настоящем стандарте выбрано разделение методов наблюдения на статистические и эмпирические. Статистические методы генерируют воспроизводимые показатели робастности на основе заданных наборов данных. Эмпирические методы формируют данные, которые можно проанализировать статистическими методами, но они не обязательно воспроизводимы из-за включения субъективной оценки. Поэтому необходимо, чтобы методы из обеих категорий применялись совместно.

Таким образом, в настоящем стандарте сначала рассмотрены статистические подходы, которые являются наиболее распространенными при оценке робастности. Для них характерен подход к тестированию, определяемый методологией с использованием математических метрик. Затем исследованы подходы к получению формального доказательства, которые используют для оценки робастности и, наконец, представлены эмпирические подходы, основанные на субъективных наблюдениях, которые дополняют оценку робастности, когда статистические и формальные подходы недостаточны или нецелесообразны.

Эти методы не используют для прямой оценки робастности в целом. Каждый из них нацелен на различные аспекты робастности, предоставляя несколько частичных показателей, сочетание которых позволяет оценить робастность.

Эксперты по оценке робастности используют эти методы, чтобы ответить на различные виды вопросов по системе, которую они проверяют, например:

- статистические методы позволяют эксперту по оценке проверить, достигают ли свойства систем предпочтительного целевого порога (например, сколько дефектных единиц произведено);

- формальные методы позволяют эксперту по оценке проверить, доказуемы ли свойства в области использования (например, всегда ли система работает в заданных пределах безопасности);

- эмпирические методы позволяют эксперту оценить ту степень, в которой свойства системы достоверны в тестируемом сценарии (например, является ли наблюдаемое поведение удовлетворительным).

Принцип применения таких методов к оценке робастности заключается в том, чтобы оценить, в какой степени эти свойства сохраняются при изменении условий:

- при использовании статистических методов: как изменение условий влияет на измеренные рабочие характеристики?

- в случае формальных методов: сохраняются ли необходимые свойства при расширении границ области условий (входных данных)?

- при применении эмпирических методов: сохраняются ли свойства в других сценариях?

Следует отметить, что характеристика робастности нейронных сетей является активной областью исследований, и существуют ограничения как для подходов к тестированию, так и к валидации. При использовании подходов к тестированию вариация возможных входных данных вряд ли будет достаточно большой, чтобы обеспечить какие-либо гарантии эффективности системы. Валидационные подходы обычно требуют аппроксимаций для обработки входных данных высокой размерности и большого количества параметров нейронной сети.