Статус документа
Статус документа

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021 Информационные технологии (ИТ). Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

     5.2 Метрики робастности, имеющиеся в распоряжении статистических методов

5.2.1 Общие положения

В настоящем пункте представлена справочная информация о доступных статистических показателях, которые обычно применяют к выходу нейронных сетей. Здесь приведено описание целей робастности с использованием шага 1 на рисунке 1. Цели робастности должны быть четко определены. Например, простая формулировка, такая как "обученная нейронная сеть должна быть робастной к входным данным, отличным от тех, на которых она была обучена", является недостаточно четко определенной. В зависимости от входных данных нейронная сеть может полностью соответствовать или вовсе не соответствовать этой целевой функции. С одной стороны, нейронная сеть может быть полностью робастной к входным данным, которые следуют распределению, отличному от исходных обучающей и тестовой выборок, но остаются в пределах области определения. С другой стороны, вполне возможна нейронная сеть, которая вообще не соответствует требованиям, если входные данные находятся в совершенно другой области определения, чем те, на которых она была обучена.

Следовательно, целевая функция робастности должна быть сформулирована в достаточной степени, чтобы можно было определить робастность нейронной сети.

Пример четко поставленной цели (структурированной из трех частей) выглядит следующим образом:

- нейронная сеть должна быть устойчивой к входным данным, отличным от тех, на которых она была обучена;

- предполагается, что входные данные относятся к одной области и могут включать как физически реализуемые, так и гипотетические;

- показатели, которые могут быть использованы, включены в 5.2.2.

В зависимости от задачи, решаемой системой ИИ (например, классификация, интерполяция/регрессия), возможны различные статистические метрики. В настоящем подразделе описаны общие статистические метрики и способ их вычисления. Список не является исчерпывающим, и некоторые из этих показателей совместимы с другими задачами. Их можно использовать как отдельно, так и в комбинации. В зависимости от применения существует также множество метрик, специфичных для конкретной задачи [например, BLEU, TER или METEOR для машинного перевода, отношение пересечений и объединений (intersection over union) для обнаружения объектов на изображениях или средняя точность (mean average precision) для качественного ранжированного поиска], но их описание выходит за рамки настоящего стандарта.

5.2.2 Примеры метрик эффективности для интерполяции

5.2.2.1 Среднеквадратичная ошибка или среднеквадратичное отклонение

Среднеквадратичная ошибка (RMSE) - это стандартное отклонение остатков (ошибок прогнозирования). Ошибки прогнозирования - это показатель того, насколько далеко от линии регрессии находятся точки данных, a RMSE - это показатель разброса остатков.

5.2.2.2 Максимальная ошибка

Максимальная ошибка (max error) - это абсолютная или относительная метрика, вычисляющая значение в исходных данных и соответствующее значение в прогнозе системы ИИ. Абсолютная максимальная ошибка - это максимальная разность между значением в исходных данных и соответствующим значением в прогнозе системы ИИ. Относительная максимальная ошибка - это отношение абсолютной максимальной ошибки к реально измеренному значению.

5.2.2.3 Фактическая и прогнозируемая корреляции