6.1 Общие требования к описанию наборов данных
Набор медицинских данных должен содержать следующие сведения (описательного характера):
1) номер свидетельства о государственной регистрации базы данных в качестве результата интеллектуальной деятельности (рекомендательно);
2) характеристика популяции (возрастно-половые показатели, этнический состав, регионы проживания и т.д.); сведения о де-идентификации; сведения о МО, послуживших источниками для формирования базы данных; сведения о факторах риска;
3) характеристика исследования: анатомическая область(и), модальность, проекции, типы медицинских изделий - диагностических приборов, виды и характеристики протоколов исследования;
4) целевая патология согласно Международной классификации болезней (либо наименование феноменов в соответствии с рекомендациями профильной ассоциации специалистов), если применимо в соответствии с поставленной целью (см. 5.1);
5) общее количество клинических случаев, исследований, изображений, документов и их распределение по диагностическим группам;
6) соотношение случаев "норма"/"патология" (случаи "патология" могут быть разделены на несколько подклассов), если применимо в соответствии с поставленной целью (см. 5.1);
7) сведения о верификации (патогистологическом или ином окончательном диагнозе);
8) методология разметки.
Примеры рекомендованных параметров для описания наборов данных для медицинских изображений приведены в приложении А, для области клинической физиологии - в приложении Б.
6.2 Разделение набора данных на обучающую и тестовую выборки на этапе разработки системы искусственного интеллекта
В процессе разработки СИИ возможно использование обучающей, тестовой и в некоторых случаях проверочной выборок, которые выделены из одного или нескольких наборов данных.
Внутреннее тестирование СИИ должно быть проведено на наборе данных, который не был использован для обучения. Это необходимо для исключения явления переобучения, при котором в результате тестирования СИИ получается смещенная оценка.