Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

5.5.6 Вариант использования 21: Индивидуальное управление лечением диабета

Применение

Диабет - это болезнь, которая становится все более распространенной среди населения Земли, затрагивая как развивающиеся, так и развитые страны. Современные стратегии управления лечением не учитывают должным образом индивидуальные профили пациентов, в том числе наличие сопутствующих заболеваний и прием соответствующих лекарств - обычное явление у пациентов с хроническими заболеваниями. Для обработки данных в электронных медицинских документах и записях (EHR) следует применять передовые методы интеллектуального анализа данных на основе графов, преобразуя данные в графы RDF (Resource Description Framework). Эти передовые методы облегчат поиск пациентов с диабетом и позволят извлечь их медицинские данные для оценки результатов лечения.

_______________

Resource Description Framework (RDF) - среда описания ресурсов, разработанная Консорциумом Всемирной паутины модель для представления данных и особенно метаданных. RDF представляет утверждения о ресурсах в виде, пригодном для машинной обработки. Множество RDF-утверждений образует ориентированный граф, в котором вершинами являются субъекты и объекты, а ребра отображают отношения. - Википедия, https://ru.wikipedia.org/wiki/Resource_Description_Framework

Текущий подход

Типичные данные о пациенте включают порядка сотни терминов из контролируемых словарей и тысячу непрерывных числовых величин. Большинство значений свойств снабжены отметками времени. Традиционную парадигму поиска в таблицах реляционной базы данных следует обновить, сменив ее на обход семантического графа.

Планы на будущее

Первым шагом является сопоставление документов пациентов для выявления схожих пациентов в большой базе данных медицинской документации (т.е. формирование индивидуализированной демографической когорты). Необходимо оценить результаты лечения каждого пациента с тем, чтобы выбрать наиболее подходящее решение для конкретного больного диабетом. Зависящие от времени свойства должны быть обработаны перед выполнением запроса для того, чтобы сделать возможным сопоставление на основе производных и других выводимых свойств. Информация о программном обеспечении описана в A.4.6.

5.5.7 Вариант использования 22: Статистический реляционный искусственный интеллект для здравоохранения

Применение

Целью проекта является анализ больших мультимодальных медицинских данных, включая данные различных типов, такие как изображения, электронные медицинские документы и записи (EHR), генетические данные и данные на естественном языке. В рамках этого подхода используются реляционные вероятностные модели, способные работать с богатыми реляционными данными и моделирующие неопределенности на основе теории вероятности.

Программное обеспечение обучает модели на основе различных массивов данных и, возможно, позволит интегрировать информацию и логические рассуждения о сложных запросах. Пользователи могут представить набор сведений, например результаты магнитно-резонансной томографии (МРТ) и демографические данные о конкретном субъекте. Затем они могут сделать запрос о начале конкретного заболевания (например, болезни Альцгеймера), и система выдаст распределение вероятностей для возможного возникновения этого заболевания.

Текущий подход

Один сервер может обрабатывать тестовую когорту из нескольких сотен пациентов, при этом объем соответствующих данных составит сотни гигабайт.

Планы на будущее

В случае когорты из миллионов пациентов придется иметь дело с базами данных петабайтного объема. Основной проблемой является наличие слишком большого количества данных (например, изображений, генетических последовательностей), что может усложнить анализ. Иногда доступны большие объемы данных об одном субъекте, но число субъектов при этом не очень велико (то есть имеется дисбаланс данных). Это может привести к тому, что в ходе анализа алгоритмы обучения расценят случайные корреляции между данными нескольких типов как важные свойства. Еще одна проблема заключается в согласовании и слиянии данных из нескольких источников в форме, полезной для их совместного анализа.