Концепции оценки качества данных и их применение
B.1 Концептуальные основы качества данных
Набор данных может быть создан для конкретного приложения или для нескольких возможных приложений. Качество набора данных может быть определено только при наличии информации об оценке элементов качества данных и в некоторых случаях косвенно - на основе неколичественной качественной информации по использованию, происхождению и назначению (см. ГОСТ Р 57668). Элементы качества данных оценивают расхождение между набором данных и предметной областью (т.е. правильным набором данных, который соответствует спецификации продукта). Неколичественная информация о качестве предоставляет общую информацию, из которой можно получить связанные с качеством знания.
Концепции оценки качества данных предоставляют важную основу для разработчиков, а также пользователей данных. Разработчик данных получает средства для проверки того, насколько набор данных отражает его предметную область согласно спецификации продукта. Пользователи данных могут оценить качество набора данных для удостоверения в том, что набор данных удовлетворяет требованиям пользовательского применения (см. рисунок В.1).
Заявленные результаты качества являются действительными в отношении спецификации информационного продукта или требований пользователей. Если они изменились, то оценка качества должна быть повторена в отношении измененной спецификации или требований. Следует проявлять осторожность при сравнении результатов качества там, где предметная область отличается. Типичным примером этого является преобразование модели в инфраструктурах пространственных данных или при генерализации. Например, при изменении геометрии типа объекта также изменяются результаты позиционной точности.
Рисунок B.1 - Концептуальные основы оценки качества данных
B.2 Структура наборов данных и компонентов для описания качества
Набор данных может принадлежать комплекту наборов данных, что означает, что все наборы данных комплекта основаны на одной и той же спецификации информационного продукта. Качество всех наборов данных, принадлежащих одному комплекту набора данных, может быть одинаковым.
Набор данных может рассматриваться как содержащий большое, хотя и конечное, число поднаборов данных. Поднаборы данных, объединенные принадлежностью к одному и тому же типу объекта, атрибуту объекта или отношению, критерию сбора или к одной и той же географической и временной протяженности, часто имеют одинаковое качество. Поднабор данных минимально может состоять из экземпляра объекта, значения атрибута или вида отношения. Концепция оценки качества данных позволяет каждому экземпляру объекта, значению атрибута и виду отношения объекта иметь собственное качество. Качество поднабора данных в наборе данных может не совпадать с качеством остальной части набора данных, к которому они принадлежат. Концепции оценки качества данных допускают выдачу информации о качестве набора данных и, кроме того, другой информации о качестве поднабора данных, идентифицируя эти группы как данные, которые определяются спецификой области определения качества данных. Информация о качестве, представленная для нескольких областей определения качества данных, меньше, чем та, что выводится для набора данных, но представляет более полную и подробную картину качества, чем общее качество полного набора данных.
Примечание - Для разработчика данных спецификация информационного продукта описывает предметную область и содержит правила для построения набора данных. Для пользователя данных требования описывают предметную область, которая может совпадать или не совпадать с предметной областью набора данных. Качество набора данных определяется тем, насколько хорошо он представляет предметную область. Качество одного и того же набора данных может отличаться в зависимости от предметной области, относительно которой он оценивается.
Качество набора данных описывается элементами качества данных и их дескрипторами. Некоторая информация, относящаяся к качеству, также может быть получена с помощью неколичественных элементов использования, происхождения и назначения.
Метакачество обеспечивает информацию по качеству в отношении оценки качества.
Элементы качества данных позволяют оценить, насколько набор данных соответствует критериям, изложенным в спецификации информационного продукта, или требованиям пользователя. Элементы качества данных оценивают различными способами и на различных этапах жизненного цикла набора данных. Концепция оценки качества данных подразумевает, что не все элементы качества данных применимы ко всем типам наборов данных. Помимо этого некоторые элементы качества данных являются применимыми к большим наборам данных, в то время как другие больше применимы к подмножеству данных в более крупном наборе данных. Некоторые элементы качества данных применимы как для единичных экземпляров данных, так и для большего количества, а некоторые применимы только для множества экземпляров.
Настоящий стандарт определяет элементы качества данных в первую очередь как средства идентификации и выдачи различных видов информации о качестве, также он подразумевает, что элементы качества данных часто взаимосвязаны. Например, ошибка в координатах может повлечь за собой по меньшей мере два типа ошибок - позиционную и топологическую (см. приложение I). Значение элементов качества данных с точки зрения продукта и способа, которым обрабатываются элементы качества данных, находится в компетенции оценщика качества.
B.3 Когда применять процедуры оценки качества
Процедуры оценки качества могут применяться на различных этапах жизненного цикла продукта. Оценка качества может быть применена на следующих стадиях жизненного цикла продукта:
- разработка спецификации информационного продукта или требований пользователя: при разработке спецификации или определении требований пользователя процедуры оценки качества могут быть использованы для установления уровней соответствия качества, которым должен отвечать конечный продукт. Спецификация информационного продукта или требования пользователя могут включать уровни соответствия качества для данных и процедуры оценки качества, которые должны применяться в процессе производства и обновления;
- контроль качества при создании набора данных: На стадии производства разработчик может применять процедуры оценки качества, которые явно установлены или же не включены в спецификацию информационного продукта, как часть процесса по контролю качества. Описание процедур оценки качества, применяемых для контроля качества продукции, рекомендуется представлять как метаданные происхождения, включая, в частности, оценку качества применяемых процедур, установленные уровни качества соответствия и результаты;
- проверка на соответствие спецификации информационного продукта: по завершении производства продукта рекомендуется использовать процесс оценки качества для формирования и представления результатов качества данных. По этим результатам можно определить, насколько набор данных соответствует или не соответствует спецификации информационного продукта. Если набор данных проходит проверку (состоящую из серии процедур оценки качества), то его считают готовым к использованию. Результаты по операции проверки следует выдавать в соответствии с разделом 10. Пример описания оценки и выдачи информации о качестве данных см. в приложении E. Итогом проверки будет принятие либо непринятие набора данных. Если набор данных будет отклонен, то после исправления данных необходимо будет провести новую проверку, и так до тех пор, пока продукт не будет соответствовать спецификации информационного продукта;
- оценка соответствия набора данных требованиям пользователя: процедуры оценки качества могут быть использованы для удостоверения в том, что набор данных отвечает уровням соответствия качества, установленным требованиями пользователя. При анализе соответствия набора данных требованиям пользователя могут применяться как косвенные, так и прямые методы;
- контроль качества при обновлении набора данных: процедуры оценки качества применяются к операциям обновления набора данных как для используемых элементов обновления, так и для сравнения качества набора данных до и после обновления.
B.4 Выдача информации о качестве
B.4.1 Зачем выдавать информацию о качестве
Необходимость выдавать информацию о качестве данных существует по ряду причин, включая следующие:
- способствовать обнаружению и поддерживать использование набора данных;
- показывать соответствие спецификации информационного продукта или требованиям пользователя;
- как часть инициатив менеджмента поставщика;