Статус документа
Статус документа

ПНСТ 848-2023

ПРЕДВАРИТЕЛЬНЫЙ НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Искусственный интеллект

БОЛЬШИЕ ДАННЫЕ

Обзор и требования по обеспечению сохранности данных

Artificial intelligence. Big data. Overview and requirements for data preservation



ОКС 35.020

Срок действия с 2024-02-01

до 2027-02-01

Предисловие

     

1 ПОДГОТОВЛЕН Научно-образовательным центром компетенций в области цифровой экономики Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный университет имени М.В.Ломоносова" (МГУ имени М.В.Ломоносова) и Обществом с ограниченной ответственностью "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 13 декабря 2023 г. N 94-пнст

4 Настоящий стандарт является модифицированным по отношению к международному стандарту МСЭ-Т Y.3604 (02/2020)* "Большие данные. Обзор и требования по обеспечению сохранности данных" (Recommendation ITU-T Y.3604 (02/2020) "Big data - Overview and requirements for data preservation", MOD) путем дополнительных положений, выделенных курсивом**, а также невключения отдельных структурных элементов для учета особенностей национальной стандартизации в области искусственного интеллекта и работы с большими данными, объяснение причин их внесения приведено во введении к настоящему стандарту.


________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.

** В оригинале обозначения и номера стандартов и нормативных документов в разделе "Предисловие" и приложении ДА приводятся обычным шрифтом, отмеченные в разделе "Предисловие" знаком "**" и остальные по тексту документа выделены курсивом. - Примечание изготовителя базы данных.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

Сопоставление структуры настоящего стандарта со структурой примененного в нем международного стандарта приведено в дополнительном приложении ДА

Правила применения настоящего стандарта и проведения его мониторинга установлены в ГОСТ Р 1.16-2011** (разделы 5 и 6).

Федеральное агентство по техническому регулированию и метрологии собирает сведения о практическом применении настоящего стандарта. Данные сведения, а также замечания и предложения по содержанию стандарта можно направить не позднее чем за 4 мес до истечения срока его действия разработчику настоящего стандарта по адресу: 119991, Российская Федерация, Москва, Ленинские горы, д.1 и в Федеральное агентство по техническому регулированию и метрологии по адресу: 123112 Москва, Пресненская набережная, д.10, стр.2.

В случае отмены настоящего стандарта соответствующая информация будет опубликована в ежемесячном информационном указателе "Национальные стандарты" и также будет размещена на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)

Введение


В настоящем стандарте представлена общая концепция сохранности данных, описан процесс сохранности в экосистеме больших данных, перечислены категории данных, пакеты данных и функциональные объекты для сохранности больших данных. Кроме того, приведены функциональные требования к сохранности больших данных и требования и рекомендации, которые необходимо учитывать при обеспечении безопасности больших данных, а также варианты использования методов сохранности больших данных.

Соблюдение требований настоящего стандарта является добровольным, за исключением определенных обязательных требований (например, необходимых для обеспечения функциональной совместимости или применимости), которые должны быть выполнены. Для выражения требований использованы такие слова, как "обязан", или другие императивные формулировки, например "должен", а также их отрицательные эквиваленты. Употребление данных слов не означает, что настоящий стандарт является обязательным для какой-либо из сторон.

В настоящий стандарт включены дополнительные положения для учета потребностей национальной экономики Российской Федерации и особенностей российской национальной стандартизации, выделенные курсивом, а именно:

- изменен элемент "Введение";

- в 2.1 изменено определение термина в соответствии с требованиями ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.2;

- в раздел 2 "Термины и определения" добавлены пункты 2.2-2.7 для взаимопонимания между различными пользователями настоящего стандарта.

     1 Область применения

В настоящем стандарте приведен обзор и установлены требования к сохранности больших данных.

В настоящем стандарте рассматриваются следующие темы:

- обзор сохранности больших данных;

- функциональные требования к сохранности больших данных;

- варианты использования методов сохранности больших данных.

     2 Термины и определения

В настоящем стандарте применены следующие термины с соответствующими определениями:

2.1

большие данные (big data): Большие массивы данных, отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.

Примечание - Термин "большие данные" широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных.

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.2]

2.2

данные (data): Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.

Примечание - Данные могут быть обработаны автоматически или вручную.

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.5]

2.3

изменчивость данных (data volatility): Характеристика данных, относящаяся к скорости их изменения с течением времени.

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.17]

2.4

массив данных (data set, dataset): Идентифицируемая совокупность данных, к которой можно получить доступ или скачать в одном или нескольких форматах.

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.11]

2.5

обработка данных (data processing): Систематическое выполнение операций с данными.

Примечания

1 Арифметические или логические операции с данными, объединение или сортировка данных или такие операции с текстом, как редактирование, сортировка, объединение, хранение, извлечение, отображение или печать.

2 Термин "обработка данных" не должен использоваться в качестве синонима для термина "обработка информации".

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.9]

2.6

тип данных (data type, datatype): Совокупность объектов данных установленной структуры и набора допустимых операций над этими объектами.

Примечания

1 Целочисленный тип данных имеет простую структуру, каждый экземпляр которой, обычно называемый значением, представляет собой одно из целых чисел из заданного диапазона, а допустимые действия включают в себя обычные арифметические операции над этими целыми числами.

2 Если толкование не вызывает сомнений, то вместо термина "тип данных" может быть использован термин "тип".

3 Тип данных: определение и термины, стандартизованные ИСО/МЭК [ИСО/МЭК 2382-15:1999].

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.12]

2.7

файл (file): Поименованная совокупность записей, рассматриваемая как единое целое.

[ГОСТ Р ИСО/МЭК 20546-2021, статья 3.1.21]

2.8 сохранность больших данных (big data preservation): Комплекс мероприятий, стратегий и политик, разработанный сервис-провайдером больших данных, для обеспечения доступности и использования ценной информации в экосистеме больших данных.

Примечание - Экосистема больших данных определяет необходимые действия для ролей, предоставляющих или использующих сервисы больших данных, а также взаимоотношения между ними (см. [1]).

2.9 сохранность данных (data preservation): Политики и мероприятия по обеспечению постоянного доступа к данным.

2.10 политика сохранности данных (data preservation policy): Набор правил для контроля мероприятий по сохранности данных.

     3 Соглашения по терминологии

В настоящем стандарте:

- ключевые слова "требуется, чтобы" означают требование, которое должно строго соблюдаться и отклонение от которого не допускается, если будет сделано заявление о соответствии настоящему стандарту;

- ключевое слово "рекомендуется" означает требование, которое рекомендуется, но не является абсолютно необходимым. Таким образом, это требование не является обязательным для заявления о соответствии настоящему стандарту.

     4 Обзор сохранности больших данных

В данном разделе представлен обзор сохранности больших данных: приведена общая концепция сохранности данных, а также проиллюстрирован процесс сохранности данных в экосистеме больших данных. В разделе также описаны категории данных, пакеты данных и функциональные объекты для сохранности больших данных.

     4.1 Общая концепция сохранности данных

Сохранность данных - это политики и мероприятия, направленные на обеспечение постоянного доступа к данным. Обеспечение сохранности и целостности данных и их метаданных для дальнейшего использования является основополагающим принципом сохранности данных. Целью сохранности данных являются защита данных от их потери или разрушения и доступность данных в течение длительного времени.

Потеря или разрушение данных происходит по разным причинам, в том числе из-за износа и старения физических носителей данных, исчезновения аппаратного или программного обеспечения, используемого для чтения данных, невозможности прочтения формата файлов, содержащих данные, и т.д.

Сохранность данных расширяет концепцию наличия или обладания данными или резервными копиями данных. Сохранность данных обеспечивает постоянный доступ к данным путем планирования стратегий резервного копирования и восстановления, предшествующих аварийным ситуациям или технологическим изменениям.

     4.2 Сохранность данных в экосистеме больших данных

В экосистеме больших данных сохранность данных, как правило, включает в себя комплекс мероприятий, стратегий и политик, направленных на обеспечение доступности и использования ценной информации сервис-провайдером больших данных.

В дальнейшем термин "сохранность больших данных" использован для обозначения сохранности данных в экосистеме больших данных.

4.2.1 Проблемы сохранности больших данных

Следующие характеристики больших данных (см. 6.1 [1]) создают проблемы для сохранности больших данных:

a) объем: характеризует объемы собранных, сохраненных, проанализированных и визуализированных данных, которыми необходимо оперировать с помощью технологий больших данных. С этой характеристикой связаны следующие проблемы:

1) как масштабировать хранилища данных и

2) как определять данные, подлежащие сохранению.

Примечание - Данные, которые напрямую не используют, могут представлять собой ценность косвенно, например для аналитики. Поэтому может быть сложнее принять решение о том, что сохранять и когда предпринимать действия по обеспечению сохранности больших объемов данных;

b) разнообразие: характеризует различные типы и форматы данных, которые обрабатываются с помощью технологий больших данных. Для каждого типа данных может потребоваться отдельная программно-аппаратная среда для оперирования данными. С этой характеристикой связана следующая проблема:

1) как сохранять различные медиа и контекст их обработки;

c) скорость обработки данных: характеризует то, с какой скоростью происходит комплектование данных и с какой скоростью обрабатываются данные с помощью технологий больших данных для получения ожидаемых результатов. С этой характеристикой связана еще одна проблема сохранности больших данных:

Доступ к полной версии документа ограничен
Этот документ или информация о нем доступны в системах «Техэксперт» и «Кодекс».
Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs