Статус документа
Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

     5.9.5 Вариант использования 45: Объединенный испытательный стенд iRODS Исследовательского центра в Ленгли НАСА и Центра управления полетами имени Годдарда


Применение

Центр моделирования климата НАСА (NCCS) и Центр обработки атмосферных данных (ASDC) Национального управления по аэронавтике и исследованию космического пространства США (NASA) имеют в своем распоряжении взаимодополняющие друг друга наборы данных огромного объема, ввиду чего по этим данным трудно выполнять запросы и ими сложно обмениваться.

Исследователям климата, специалистам по прогнозированию погоды, группам разработки и обслуживания измерительной аппаратуры и другим специалистам нужен доступ к данным из нескольких массивов данных с тем, чтобы сравнивать показания датчиков различных измерительных инструментов, сопоставлять показания датчиков с результатами моделирования, калибровать приборы, искать корреляции между несколькими параметрами и т.д.

Текущий подход

Данные создаются на основе двух продуктов: "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA), описывается отдельно в варианте применения N 46, и проекта НАСА "Система для изучения облачности и излучения Земли" (CERES):

- база данных "Баланс и накопление энергии верхних слоев атмосферы" EBAF-TOA (Energy Balanced and Filled-Top of Atmosphere) объемом около 420 мегабайт;

- продукт "Баланс и накопление энергии - Поверхность" EBAF-Surface, объемом около 690 мегабайт.

Количество данных увеличивается с каждым обновлением версии, которое происходит примерно раз в полгода. В настоящее время усилия по анализу, визуализации и обработке данных из неоднородных массивов данных требуют много времени. Ученым приходится отдельно получать доступ, искать и загружать данные с каждого из нескольких серверов. Данные часто дублируются, при этом непонятно, какой источник считать авторитетным. Нередко получение доступа к данным отнимает больше времени, чем научный анализ. Текущие массивы данных размещаются на кластерах InfiniBand умеренного размера (от 144 до 576 ядер).

Планы на будущее

Улучшенный доступ будет обеспечиваться благодаря использованию интегрированной системы управления данными, основанной на использовании правил" (iRODS). Эти системы поддерживают параллельную загрузку массивов данных с выбранных серверов копий (replica servers), обеспечивая пользователям всемирный доступ к географически рассредоточенным серверам. Работе iRODS будут способствовать семантически организованные метаданные, управление которыми осуществляется на основе высокоточной онтологии НАСА для наук о Земле. Также будет рассмотрен вопрос о возможности использования облачных решений.