Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

5.6.6 Вариант использования 31: Измерения, оценки и стандарты эффективности аналитических технологий в отделе доступа к информации NIST

Применение

Для создания основ и ускорения дальнейшего развития передовых аналитических технологий в областях обработки речи и языка, видеозаписей и мультимедийных материалов, биометрических изображений и неоднородных данных необходимы метрики эффективности, методы измерения и проведение оценок сообществом, а также взаимодействие аналитиков с пользователями.

Обычно применяется одна из двух моделей обработки:

1) предоставить участникам тестирования тестовые данные и проанализировать выходные данные систем - участников, и

2) предоставить участникам интерфейсы к тестовой обвязке для алгоритмов, взять их алгоритмы и провести тестирование алгоритмов на внутренних вычислительных кластерах.

Текущий подход

Для целей обучения, испытаний в ходе разработки и итоговых оценок имеются большие аннотированные совокупности неструктурированного/полуструктурированного текста, аудио- и видеозаписей, изображений, мультимедийных материалов и разнородные коллекции вышеперечисленного, включая аннотации о точности и достоверности (ground truth). В составе этой совокупности более 900 млн веб-страниц общим объемом 30 терабайт, 100 млн твиттов, 100 млн проверенных биометрических изображений, несколько сотен тысяч частично проверенных видеоклипов и терабайты более мелких полностью проверенных тестовых коллекций.

Планы на будущее

Для будущих оценок аналитики планируется собрать еще большие коллекции данных с использованием нескольких потоков данных, включая очень неоднородные данные. В дополнение к более крупным массивам данных в будущем предполагается тестирование потоковых алгоритмов на различных неоднородных данных. Изучается возможность использования облаков.