ГОСТ Р ИСО/МЭК 20546-2021
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Информационные технологии
БОЛЬШИЕ ДАННЫЕ
Обзор и словарь
Information technology. Big data. Overview and vocabulary
ОКС 35.020
Дата введения 2021-11-01
1 ПОДГОТОВЛЕН Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В. Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Автономной некоммерческой организацией "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 13 июля 2021 г. N 632-ст
4 Настоящий стандарт идентичен международному стандарту ИСО/МЭК 20546:2019* "Информационные технологии - Большие данные - Обзор и словарь" (ISO/IEC 20546:2019 "Information technology - Big data - Overview and vocabulary", IDT).
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.
Дополнительные сноски в тексте стандарта, выделенные курсивом, приведены для пояснения текста стандарта
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
Установленные в настоящем стандарте термины и определения расположены в порядке, отражающем систему понятий данной области знания.
Для каждого понятия установлен один стандартизованный термин.
В стандарте приводятся эквиваленты стандартизованных терминов на английском (en) языке.
Стандартизованные термины набраны полужирным шрифтом, их краткие формы - светлым, а недопустимые термины-синонимы - курсивом.
Настоящий стандарт содержит набор терминов и определений, необходимых для улучшения информационного взаимодействия и формирования русскоязычных понятий в области информационных технологий и больших данных. Он обеспечивает терминологическую основу для стандартов, связанных с большими данными.
Термины, установленные настоящим стандартом, обязательны для применения во всех видах документации и литературы по данной научно-технической отрасли, входящих в сферу работ по стандартизации и (или) использующих результаты этих работ.
Нормативные ссылки в настоящем стандарте отсутствуют.
В настоящем стандарте применены следующие термины с соответствующими определениями.
ISO (ИСО) и IEC (МЭК) поддерживают терминологические базы данных для использования в стандартизации по следующим адресам:
- Онлайн-библиотека стандартов ISO (ИСО): доступна по адресу: https://www.iso.org/obp;
- Международный электротехнический словарь МЭК (IEC Electropedia): доступен по адресу: http://www.electropedia.org/.
3.1 Термины
3.1.1 выгода (benefit): Польза для организации от практически полезных знаний, полученных из аналитической системы.
Примечание - Большие данные часто ассоциируются с выгодой вследствие понимания того, что данные имеют потенциальную ценность, ранее обычно не рассматриваемую.
3.1.2 большие данные (big data): Большие массивы данных (3.1.11), отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
Примечание - Термин "большие данные" широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных.
3.1.3 облачные вычисления (cloud computing): Парадигма для предоставления возможности сетевого доступа к масштабируемому и эластичному пулу общих физических или виртуальных ресурсов с предоставлением самообслуживания и администрированием по требованию.
Примечание - Примерами таких ресурсов являются серверы, операционные системы, сети, программное обеспечение, приложения и оборудование для хранения.
[ИСО/МЭК 17788:2014, 3.2.5]
3.1.4 кластер (в распределенной обработке данных) (cluster): Совокупность функциональных устройств, находящихся под общим управлением.
[ИСО/МЭК 2382:2015, 4.496]
3.1.5 данные (data): Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.
Примечание - Данные могут быть обработаны автоматически или вручную.
[ИСО/МЭК 2382:2015, 4.259]
3.1.6 аналитика данных (data analytics): Составное понятие, охватывающее получение, сбор, проверку и обработку данных (3.1.9), включая их количественную оценку, визуализацию и интерпретацию.
Примечание - Аналитика данных используется для представления объектов, описываемых данными (3.1.5), с целью прогнозирования конкретных ситуаций и формирования пошаговых рекомендаций при решении задач. Закономерности, полученные посредством аналитики, используются в различных целях, таких как принятие решений, проведение исследований, обеспечение устойчивого развития, проектирование, планирование и т.д.
3.1.7 база данных (database): Совокупность данных (3.1.5), организованная в соответствии с концептуальной структурой, в которой описываются характеристики этих данных и взаимосвязи между представляемыми ими сущностями для одной или нескольких областей применения.
[ИСО/МЭК 2382:2015, 2121413]
3.1.8 модель данных (data model): Схема данных (3.1.5), структурированная в базе данных (3.1.7) в соответствии с формальными описаниями в информационной системе и требованиями используемой системы управления базой данных.
[ИСО/МЭК 2382:2015, 2125519]
3.1.9 обработка данных (data processing): Систематическое выполнение операций с данными (3.1.5).
Примечания
1 Арифметические или логические операции с данными, объединение или сортировка данных или такие операции с текстом, как редактирование, сортировка, объединение, хранение, извлечение, отображение или печать.
2 Термин "обработка данных" не должен использоваться в качестве синонима для термина "обработка информации".
[ИСО/МЭК 2382:2015, 2121276]
3.1.10 наука о данных (data science): Извлечение практических знаний из данных (3.1.5) посредством исследования или создания и проверки гипотез.
3.1.11 массив данных (data set, dataset): Идентифицируемая совокупность данных (3.1.5), к которой можно получить доступ или скачать в одном или нескольких форматах.
[Адаптировано из ИСО 19115-2:2009, 4.7]
3.1.12 тип данных (data type, datatype): Совокупность объектов данных (3.1.5) установленной структуры и набора допустимых операций над этими объектами.
Примечания
1 Целочисленный тип данных имеет простую структуру, каждый экземпляр которой, обычно называемый значением, представляет собой одно из целых чисел из заданного диапазона, а допустимые действия включают в себя обычные арифметические операции над этими целыми числами.
2 Если толкование не вызывает сомнений, то вместо термина "тип данных" может быть использован термин "тип".
3 Тип данных: определение и термины, стандартизованные ИСО/МЭК [ИСО/МЭК 2382-15:1999].
[ИСО/МЭК 2382:2015, 2122374]
3.1.13 вариативность данных (data variability): Изменения в скорости передачи, формате или структуре, семантике или качестве массива данных (3.1.11).
3.1.14 разнообразие данных (data variety): Диапазон форматов, логических моделей, временных шкал и семантики массива данных (3.1.11).
Примечание - Данное понятие отражает нерегулярность и разнородность структур данных, навигации по структурам, запросов и типов данных.
3.1.15 скорость обработки данных (data velocity): Скорость потока, с которой данные (3.1.5) создаются, передаются, сохраняются, анализируются или визуализируются.
3.1.16 достоверность данных (data veracity): Полнота и/или точность данных (3.1.5).
Примечание - Под достоверностью данных понимают описательные данные и самоанализ объектов для поддержки принятия решений в режиме реального времени.
3.1.17 изменчивость данных (data volatility): Характеристика данных (3.1.5), относящаяся к скорости их изменения с течением времени.
[ИСО/МЭК 2382:2015, 2121506]
3.1.18 объем данных (data volume): Количественная характеристика данных (3.1.5), влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки.
Примечание - Объем данных становится важным при работе с большими массивами данных (3.1.11).
3.1.19 распределенная обработка данных (distributed data processing): Обработка данных, при которой выполнение операций распределено по узлам вычислительной сети.
[ИСО/МЭК 2382:2015, 4.1166]
3.1.20 распределенная файловая система (distributed file system): Система, управляющая файлами и папками в нескольких связанных сетью системах.
3.1.21 файл (file): Поименованная совокупность записей, рассматриваемая как единое целое.
[ИСО/МЭК 2382:2015, 4.1470]
3.1.22 сборка (gather): Объединение результатов из нескольких узлов в кластере.
Примечание - См. распределение-сборка (3.2.33).
_______________
Согласно оригиналу.
3.1.23 горизонтальное масштабирование (horizontal scaling): Формирование единого логического целого путем соединения нескольких аппаратно-программных комплексов.
Примечания
1 Примером горизонтального масштабирования является повышение производительности распределенной обработки данных путем добавления узлов в кластере с целью подключения (привлечения) дополнительных ресурсов.