Одним из аспектов робастности является влияние меняющегося окружения на количественные характеристики входных данных, для анализа которых особенно подходят статистические методы. Эти методы позволяют проводить прямую оценку эффективности в различных сценариях с использованием сравнительного анализа.
При использовании статистических методов для вычисления робастности применяют четыре основных критерия:
1) Подходящие оценочные данные. Для того чтобы оценить робастность модели, сначала устанавливают статистические характеристики распределения данных и определяют набор данных, который охватывает входные условия для целевого приложения, либо посредством сбора реальных данных измерений, либо смоделированных данных. Возможны несколько источников данных, таких как: зашумленные данные, которые не учтены при первоначальном обучении модели; данные из приложений аналогичной предметной области; данные из другого, но эквивалентного источника данных. Хотя общего метода оценки релевантности набора данных не существует, и он часто основан на суждениях человека, существуют некоторые методы (например, основанные на промежуточных представлениях данных) для поддержки этого анализа с помощью различных показателей. Оценка робастности моделей нейронных сетей может меняться при использовании различных наборов тестовых данных.
2) Выбор настройки модели. Оценка позволяет сделать заключение о робастности с использованием различных настроек обученной модели (например, точность модели, квантованный вес и т.д.).
3) Выбор метрики или метрик эффективности. В зависимости от контекста, поставленной задачи и характера данных некоторые метрики не всегда могут быть подходящими, поскольку они могут привести к недостоверным результатам. Надлежащий набор метрик (см. 5.2) помогает избежать подобных ситуаций.
4) Метод принятия решения о робастности. Учитывая выбранную метрику, выполняют статистический тест для принятия решения относительно того, является ли модель робастной.
Свойство робастности, оцениваемое с помощью статистических методов, определяется одним или несколькими пороговыми значениями по набору метрик, которые должны быть выполнены на некоторых тестовых данных. Оценка робастности зависит от конкретного случая, учитывая, что определенные организации или ситуации потребуют других целей и метрик робастности, чтобы определить, достигнута ли цель.
Настоящий подраздел соответствует общему рабочему процессу оценки робастности нейронной сети, представленному на рисунке 1. В частности, он сфокусирован на шагах 1, 2 и 3 рабочего процесса, определенного в 4.1.2, а именно на формулировке целей робастности, планировании тестирования и проведении тестирования.
В 5.2 и 5.3 представлены метрики и методы для статистической оценки робастности нейронной сети, более подробная информация по которым доступна в [8], [9], [10] и [11].