Статус документа
Статус документа

ГОСТ Р ИСО/МЭК 20546-2021


НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Информационные технологии

БОЛЬШИЕ ДАННЫЕ

Обзор и словарь

Information technology. Big data. Overview and vocabulary



ОКС 35.020

Дата введения 2021-11-01



Предисловие

     

1 ПОДГОТОВЛЕН Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В. Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Автономной некоммерческой организацией "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 13 июля 2021 г. N 632-ст

4 Настоящий стандарт идентичен международному стандарту ИСО/МЭК 20546:2019* "Информационные технологии - Большие данные - Обзор и словарь" (ISO/IEC 20546:2019 "Information technology - Big data - Overview and vocabulary", IDT).

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

Дополнительные сноски в тексте стандарта, выделенные курсивом, приведены для пояснения текста стандарта

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение


Установленные в настоящем стандарте термины и определения расположены в порядке, отражающем систему понятий данной области знания.

Для каждого понятия установлен один стандартизованный термин.

В стандарте приводятся эквиваленты стандартизованных терминов на английском (en) языке.

Стандартизованные термины набраны полужирным шрифтом, их краткие формы - светлым, а недопустимые термины-синонимы - курсивом.

     1 Область применения


Настоящий стандарт содержит набор терминов и определений, необходимых для улучшения информационного взаимодействия и формирования русскоязычных понятий в области информационных технологий и больших данных. Он обеспечивает терминологическую основу для стандартов, связанных с большими данными.

Термины, установленные настоящим стандартом, обязательны для применения во всех видах документации и литературы по данной научно-технической отрасли, входящих в сферу работ по стандартизации и (или) использующих результаты этих работ.

     2 Нормативные ссылки


Нормативные ссылки в настоящем стандарте отсутствуют.

     3 Термины и определения


В настоящем стандарте применены следующие термины с соответствующими определениями.

ISO (ИСО) и IEC (МЭК) поддерживают терминологические базы данных для использования в стандартизации по следующим адресам:

- Онлайн-библиотека стандартов ISO (ИСО): доступна по адресу: https://www.iso.org/obp;

- Международный электротехнический словарь МЭК (IEC Electropedia): доступен по адресу: http://www.electropedia.org/.

3.1 Термины

3.1.1 выгода (benefit): Польза для организации от практически полезных знаний, полученных из аналитической системы.

Примечание - Большие данные часто ассоциируются с выгодой вследствие понимания того, что данные имеют потенциальную ценность, ранее обычно не рассматриваемую.

3.1.2 большие данные (big data): Большие массивы данных (3.1.11), отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.

Примечание - Термин "большие данные" широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных.

3.1.3 облачные вычисления (cloud computing): Парадигма для предоставления возможности сетевого доступа к масштабируемому и эластичному пулу общих физических или виртуальных ресурсов с предоставлением самообслуживания и администрированием по требованию.

Примечание - Примерами таких ресурсов являются серверы, операционные системы, сети, программное обеспечение, приложения и оборудование для хранения.

[ИСО/МЭК 17788:2014, 3.2.5]

3.1.4 кластер (в распределенной обработке данных) (cluster): Совокупность функциональных устройств, находящихся под общим управлением.

[ИСО/МЭК 2382:2015, 4.496]

3.1.5 данные (data): Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.

Примечание - Данные могут быть обработаны автоматически или вручную.

[ИСО/МЭК 2382:2015, 4.259]

3.1.6 аналитика данных (data analytics): Составное понятие, охватывающее получение, сбор, проверку и обработку данных (3.1.9), включая их количественную оценку, визуализацию и интерпретацию.

Примечание - Аналитика данных используется для представления объектов, описываемых данными (3.1.5), с целью прогнозирования конкретных ситуаций и формирования пошаговых рекомендаций при решении задач. Закономерности, полученные посредством аналитики, используются в различных целях, таких как принятие решений, проведение исследований, обеспечение устойчивого развития, проектирование, планирование и т.д.

3.1.7 база данных (database): Совокупность данных (3.1.5), организованная в соответствии с концептуальной структурой, в которой описываются характеристики этих данных и взаимосвязи между представляемыми ими сущностями для одной или нескольких областей применения.

[ИСО/МЭК 2382:2015, 2121413]

3.1.8 модель данных (data model): Схема данных (3.1.5), структурированная в базе данных (3.1.7) в соответствии с формальными описаниями в информационной системе и требованиями используемой системы управления базой данных.

[ИСО/МЭК 2382:2015, 2125519]

3.1.9 обработка данных (data processing): Систематическое выполнение операций с данными (3.1.5).

Примечания

1 Арифметические или логические операции с данными, объединение или сортировка данных или такие операции с текстом, как редактирование, сортировка, объединение, хранение, извлечение, отображение или печать.

2 Термин "обработка данных" не должен использоваться в качестве синонима для термина "обработка информации".

[ИСО/МЭК 2382:2015, 2121276]

3.1.10 наука о данных (data science): Извлечение практических знаний из данных (3.1.5) посредством исследования или создания и проверки гипотез.

3.1.11 массив данных (data set, dataset): Идентифицируемая совокупность данных (3.1.5), к которой можно получить доступ или скачать в одном или нескольких форматах.

[Адаптировано из ИСО 19115-2:2009, 4.7]

3.1.12 тип данных (data type, datatype): Совокупность объектов данных (3.1.5) установленной структуры и набора допустимых операций над этими объектами.

Примечания

1 Целочисленный тип данных имеет простую структуру, каждый экземпляр которой, обычно называемый значением, представляет собой одно из целых чисел из заданного диапазона, а допустимые действия включают в себя обычные арифметические операции над этими целыми числами.

2 Если толкование не вызывает сомнений, то вместо термина "тип данных" может быть использован термин "тип".

3 Тип данных: определение и термины, стандартизованные ИСО/МЭК [ИСО/МЭК 2382-15:1999].

[ИСО/МЭК 2382:2015, 2122374]

3.1.13 вариативность данных (data variability): Изменения в скорости передачи, формате или структуре, семантике или качестве массива данных (3.1.11).

3.1.14 разнообразие данных (data variety): Диапазон форматов, логических моделей, временных шкал и семантики массива данных (3.1.11).

Примечание - Данное понятие отражает нерегулярность и разнородность структур данных, навигации по структурам, запросов и типов данных.

3.1.15 скорость обработки данных (data velocity): Скорость потока, с которой данные (3.1.5) создаются, передаются, сохраняются, анализируются или визуализируются.

3.1.16 достоверность данных (data veracity): Полнота и/или точность данных (3.1.5).

Примечание - Под достоверностью данных понимают описательные данные и самоанализ объектов для поддержки принятия решений в режиме реального времени.

3.1.17 изменчивость данных (data volatility): Характеристика данных (3.1.5), относящаяся к скорости их изменения с течением времени.

[ИСО/МЭК 2382:2015, 2121506]

3.1.18 объем данных (data volume): Количественная характеристика данных (3.1.5), влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки.

Примечание - Объем данных становится важным при работе с большими массивами данных (3.1.11).

3.1.19 распределенная обработка данных (distributed data processing): Обработка данных, при которой выполнение операций распределено по узлам вычислительной сети.

[ИСО/МЭК 2382:2015, 4.1166]

3.1.20 распределенная файловая система (distributed file system): Система, управляющая файлами и папками в нескольких связанных сетью системах.

3.1.21 файл (file): Поименованная совокупность записей, рассматриваемая как единое целое.

[ИСО/МЭК 2382:2015, 4.1470]

3.1.22 сборка (gather): Объединение результатов из нескольких узлов в кластере.

Примечание - См. распределение-сборка (3.2.33).

_______________

Согласно оригиналу.

3.1.23 горизонтальное масштабирование (horizontal scaling): Формирование единого логического целого путем соединения нескольких аппаратно-программных комплексов.

Примечания

1 Примером горизонтального масштабирования является повышение производительности распределенной обработки данных путем добавления узлов в кластере с целью подключения (привлечения) дополнительных ресурсов.

Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs