В отчете за 2019 г. международная исследовательская и консалтинговая компания International Data Corporation (IDC) прогнозировала мировые доходы от использования и аналитики больших данных в размере 189,1 млрд долл. США, что на 12% больше, чем в 2018 г., а также совокупный ежегодный рост за 5 лет на 13,2% с доходами, превышающими 274,3 млрд долл. США в 2022 г. [15].
Покупатели и потенциальные пользователи систем больших данных вынуждены иметь дело со взрывным ростом областей применения новых технологий в условиях, когда определение и понимание термина "большие данные" еще не устоялось. Для того чтобы заинтересованные стороны понимали, что они покупают и внедряют, необходимы четко выстроенные процессы их взаимодействия с потенциальными поставщиками технологий и услуг.
Примечания
1 Понятие "система больших данных" предусматривает использование парадигмы и инженерии больших данных.
2 Понятие "инженерия больших данных" предусматривает перспективные способы использования независимых ресурсов для построения масштабируемых систем данных в тех случаях, когда требуется создание новых архитектур для эффективного хранения, обработки и анализа с учетом характеристик массивов данных.
3 Понятие "парадигма больших данных" предусматривает распределение систем данных по горизонтально связанным независимым ресурсам для обеспечения масштабируемости в целях эффективной обработки больших массивов данных.
Потенциальная ценность результатов анализа больших данных стимулирует внедрение систем больших данных в организациях, поэтому необходимо понимать возможные проблемы и ответственность, связанные с их контролем и управлением. По оценкам компании IDC, предприятия имеют обязательства или несут ответственность почти за 80% информации в цифровом пространстве и должны быть готовы к решению задач обеспечения ее достоверности, авторского права и конфиденциальности персональных данных. Кроме того, по оценке компании IDC, по состоянию на 2020 г. более 40% данных в цифровом пространстве требуют обеспечения надежной защиты, а объем этих данных растет быстрее, чем все цифровое пространство [15]. Возникающие риски означают, что организации должны иметь возможность идентифицировать угрозы, определять и формулировать политики безопасности, выявлять источники данных и решать задачи по их управлению, а также внедрять технические средства контроля и документировать их применение для обеспечения реализации этих политик с целью ограничения ответственности организации при неконтролируемом использовании данных, которыми она управляет.
Наконец, очень немногие организации, имеющие дело с большими данными, работают исключительно с собственными данными. Это означает, что системы, с помощью которых решаются задачи сбора и анализа больших данных, должны иметь возможность безопасного обмена данными и надежного взаимодействия. Фактически передача огромного объема больших данных между системами часто становится нецелесообразной, что во многих случаях обуславливает необходимость применения аналитических инструментов на уровнях интероперабельности данных, программного обеспечения и приложений.
Изучение существующего ландшафта больших данных, рыночных требований к стандартизации области больших данных позволило определить следующие приоритеты:
a) сценарии использования больших данных, определения, словари и эталонные архитектуры (например, система, данные, платформы, онлайн/офлайн и т.д.);
b) спецификации и стандартизация метаданных, включая их источники;
c) прикладные модели (например, пакетной обработки, потоковые и т.д.);
d) языки запросов, в том числе к реляционным базам данных, для описания различных типов данных (XML, RDF, JSON, мультимедиа и т.д.) и операций с большими данными (например, матричных операций);
e) предметно-ориентированные языки;