7.2.1 Жизненный цикл управления качеством данных
Управление качеством данных должно осуществляться на всех стадиях жизненного цикла данных. Модель жизненного цикла управления качеством данных, показанная на рисунке 1, содержит рекомендации по соблюдению требований к качеству данных для использования в аналитике и машинном обучении. На рисунке выделены отдельные стадии, имеющие отношение к управлению качеством данных, что упрощает группировку и упорядочивание требований и рекомендаций, которые следует учитывать при управлении качеством данных. Модель жизненного цикла данных не предписывает временной порядок стадий. Стадии жизненного цикла управления качеством данных описаны в 7.2.2.
Проблемы с качеством данных могут возникнуть на любой стадии жизненного цикла данных. Для управления качеством данных необходимо формировать и поддерживать процессы управления качеством данных с начала жизненного цикла данных. Если организация делегирует ответственность за процесс, это делегирование должно быть задокументировано и отслеживаться.
Примечание - Обычно труднее обнаружить и устранить проблемы с качеством данных постфактум, нежели управлять рисками, связанными с качеством данных, когда они возникают впервые. Например, ошибок, возникших при сборе данных, легче избежать путем надлежащего управления качеством, чем пытаться обнаружить и исправить ошибки на более поздней стадии жизненного цикла данных.
7.2.2 Стадии жизненного цикла управления качеством данных
7.2.2.1 Потребность в качественных данных и концептуализация
Управление качеством данных начинается со стадии потребности в качественных данных и концептуализации. Потенциальные проблемы с качеством данных следует выявлять и устранять, когда становится очевидной первая потребность в данных для аналитики и машинного обучения. В частности, выполняется валидация и верификация потребности в качественных данных и предполагаемого использования данных для управления такими характеристиками качества, как согласованность и релевантность.
Рисунок 1 - Жизненный цикл управления качеством данных
7.2.2.2 Спецификация данных
На стадии спецификации данных формируются требования к данным, в том числе требования к форматам данных, статистическим свойствам и разделимости. Рекомендации по управлению качеством данных облегчают выявление ошибочных, неполных или противоречивых требований и планов. Например, с учетом контекста аналитики и машинного обучения процесс управления качеством подтверждает, что данные соответствуют требованиям этого контекста.
7.2.2.3 Планирование работы с данными
На стадии планирования работы с данными разрабатывается план, соответствующий спецификации данных. Он включает планирование конкретных мероприятий и ресурсов для сбора и обработки данных на протяжении всего жизненного цикла данных, а также методов оценки и критериев приемлемости.