Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

5.7.3 Вариант использования 34: Поиск по семантическому графу для текстовых научных данных по химии

Применение

Для аннотирования и представления информации о технологиях создаются инфраструктура на основе социальных сетей, терминология и семантические графы данных. В этом процессе используются методы, основанные на корневых морфемах (root-based) и правилах (rule-based), которые в настоящее время главным образом ориентированы на определенные индоевропейские языки, такие как санскрит и латынь.

Текущий подход

Во многих отчетах, в том числе в недавнем отчете по проекту "Геном материала" (Materials Genome Initiative), отмечается, что исключительно нисходящие решения, облегчающие обмен данными и интеграцию, нежелательны в случае междисциплинарных усилий. В то же время подход "снизу вверх" может быть хаотичным. По этой причине существует потребность в сбалансированном сочетании двух подходов с целью поддержки простых в использовании методов создания, интеграции и обмена метаданными. Эта проблема очень похожа на проблему, с которой сталкиваются разработчики языка, поэтому недавно разработанный метод основан на этих идеях. В настоящее время предпринимаются усилия по распространению этого метода на публикации, представляющие интерес для инициативы "Геном материала", движения "Открытое правительство", а также для "Сети интегрированных знаний NIST - EditorialNet" (NIKE) - архива публикаций американского Национального института стандартов и технологий (NIST). Эти усилия являются частью деятельности рабочей группы "Справочник стандартов метаданных" (Metadata Standards Directory) Альянса научных данных (Research Data Alliance).

Планы на будущее

Должна быть создана облачная инфраструктура для социальных сетей научной информации. Ученые всего мира смогут использовать эту инфраструктуру для участия и размещения результатов своих экспериментов. Перед созданием научной социальной сети необходимо решить некоторые вопросы, включая следующие:

- минимизировать проблемы, связанные с созданием повторно используемого, междисциплинарного, масштабируемого по требованию, дружественного по отношению к варианту использования и пользователю словаря;

- использовать существующий или создать новый индивидуализированный граф данных для размещения информации интуитивно понятным способом, таким образом, чтобы он легко интегрировался с существующими графами данных в объединенной среде независимо от специфики управления данными;

- найти адекватные научные данные, не проводя чересчур много времени в интернете.

Начать предполагается с таких ресурсов, как движение "Открытое правительство", инициатива "Геном материала" и "Банк данных белковых структур" (Protein Data Bank, PDB). Эти усилия охватят множество локальных и сетевых ресурсов. Разработка инфраструктуры для автоматической интеграции информации из всех этих ресурсов с использованием графов данных является сложной задачей, однако предпринимаются шаги для ее решения. Необходимы мощные инструменты базы данных и серверы для манипулирования графами данных.