Набор данных должен соответствовать ГОСТ Р 59921.5.
Набор данных должен быть представлен в формате, принятом для данного вида данных (например, нейрофизиологические исследования - в формате EDF, кинопетли - в DICOM). При отсутствии общепринятого открытого формата данных необходимо обеспечить возможность контроля потока информации между датчиком и моделью. Для этого может быть выбрано следующее:
- открытый формат передачи данных;
- конвертор (согласующий слой) для перевода проприетарного формата в открытый формат;
- использование проприетарного формата производителя (или его описания) после подписания соглашения о неразглашении данных между владельцем формата и проверяющим органом.
В любом из вышеперечисленных случаев проводится тестирование корректности, состоящее, например, в проверке между фактическим форматом и описанием (не должно существовать отклонений) или же проверка пары прибор-источник и конвертор (на специально сформированном наборе данных, с проведением независимого замера определяемой величины).
Отдельно требуется протестировать возможность в любой момент, без привлечения представителей поставщика оборудования, получить входной поток информации. Это необходимо для регулярно проводимой независимой валидации модели в ходе эксплуатации.
Должны быть заранее определены параметры, приведенные в ГОСТ Р 59921.5.
Наборы данных должны отражать весь вариативный ряд возможных феноменов (синдромов, диагнозов, исходов) от самых редких (казуальных) до самых частых (см. [8]). Необходимость соблюдать вариативность тендерных и расовых различий пациентов определяется видом набора данных (например, эти метаданные являются обязательными при оценке параметров функции внешнего дыхания). Частотная представленность феноменов (синдромов) в популяции имеет меньший приоритет при формировании набора данных. В случае использования несбалансированных по классам наборов данных для редких (казуальных) феноменов рекомендуется использовать дополнительные метрики, веса для наблюдений и т.п. (см. раздел 18).
В случае набора данных с результатами функциональных проб или временных рядов [например, Стресс-ЭКГ или амбулаторное (Холтеровское) мониторирование ЭКГ] необходимо представлять парные и/или обязательно зарегистрированные данные в исходном состоянии и после воздействия градуированных стимулов (раздражителей) или в разных состояниях (бодрствования, физической или ментальной активности) у одного и того же пациента.