6.1 Тестирование и оценка показателей - по ГОСТ Р 70321.1-2022 (раздел 6) с дополнениями, приведенными в настоящем стандарте.
6.2 Показатели для оценки функциональной корректности алгоритмов ИИ выбирают исходя из специфики решаемой задачи на усмотрение заказчика испытаний.
Например, в задачах сегментации для оценки классификации могут быть использованы следующие показатели:
- доля правильных исходов по всем классам;
- усредненная по всем классам F-мера.
Долю правильных исходов и F-меру рассчитывают по формулам (13) и (17) ГОСТ Р 59898-2021 соответственно, причем:
- TP - количество истинно положительных исходов по всем классам: объекты, отнесенные к целевым классам по результатам работы алгоритма ИИ, принадлежат к целевым классам в разметке;
- TN - количество истинно отрицательных исходов по всем классам: объекты, не отнесенные к целевым классам по результатам работы алгоритма ИИ, не принадлежат к целевым классам в разметке;
- FP - количество ложноположительных исходов по всем классам: объекты, отнесенные к целевым классам по результатам работы алгоритма ИИ, не принадлежат к целевым классам в разметке;
- FN - количество ложноотрицательных исходов по всем классам: объекты, не отнесенные к целевым классам по результатам работы алгоритма ИИ, принадлежат к целевым классам в разметке.
Усредненное по всем классам значение F-меры рассчитывают по формуле
, (1)
где sum(F) - суммирование значений F-меры по всем классам жилых зданий в разметке;
C - количество классов жилых зданий в разметке.