5.1 Введение
Проверка квалификации связана с оценкой показателей участников и по существу не связана со смещением или прецизионностью (хотя и они могут быть оценены в некоторых конкретных случаях). Показатели участников оценивают с помощью статистической сравнительной оценки их результатов на основе измерений или интерпретаций, которые они выполняют на образцах при проверке квалификации. Показатель часто выражают в виде индексов, которые дают возможность единой интерпретации результатов измерений, позволяя тем самым сопоставлять различные результаты измерений с единой базой. Индекс обычно определяют на основе сопоставления разности полученного результата участника, зафиксированного в отчете, и приписанного значения со стандартным отклонением или с оценкой неопределенности результатов измерений. Анализ индексов за несколько раундов программы проверки квалификации может дать информацию, свидетельствующую о наличии систематических ошибок (смещений) или низкой долговременной прецизионности в лабораториях.
В разделах 5-10 приведены рекомендации по разработке программ проверки квалификации и статистической обработке результатов для количественных величин, включая вычисление и интерпретацию различных индексов. В разделе 11 приведены рекомендации для качественных программ проверки квалификации, включая программы с порядковыми данными для количественных величин.
5.2 Основы статистического планирования эксперимента
5.2.1 В соответствии с 4.4.4.1 ГОСТ ISO/IEC 17043-2013 "следует разработать методы статистического планирования эксперимента, отвечающие целям программы проверки квалификации, учитывающие тип данных (качественные или количественные, включая порядковые и категоризированные данные), статистические предположения, особенности ошибок и ожидаемое количество результатов". Следовательно, в программах проверки квалификации с различными целями и источниками ошибок следует применять различные планы эксперимента.
Ниже приведены планы эксперимента для общих целей. Но другие цели также возможны.
Пример 1 - Для программы проверки квалификации, в которой сопоставляют результаты участников с предварительно определенным опорным значением в пределах границ, которые устанавливают до начала раунда, для планирования эксперимента требуются метод получения внешне определенного опорного значения, методы установления границ и расчета индексов.
Пример 2 - Для программы проверки квалификации, в которой сопоставляют результаты участников с комбинированными результатами группы в одном и том же раунде и границами, которые устанавливают до начала раунда, для планирования эксперимента необходимо предусмотреть определение приписанного значения по комбинированным результатам, а также метод установления границ и метод индексов.
Пример 3 - Для программы проверки квалификации, в которой сопоставляют результаты участников с комбинированными результатами группы в одном и том же раунде и границами, определенными на основе изменчивости результатов участников, необходимо рассмотреть расчеты приписанного значения и соответствующей меры разброса, а также метод определения индекса.
Пример 4 - Для программы проверки квалификации, в которой сопоставляют результаты участников с приписанным значением, полученным на основе их собственной неопределенности, при планировании эксперимента, необходимо рассмотреть способ получения приписанного значения и его неопределенности и использование неопределенности измерений участников при получении индекса.
Пример 5 - Для программы проверки квалификации с целью сопоставления различных методов измерений при планировании эксперимента, необходимо рассмотреть соответствующие обобщенные статистики и процедуры их вычисления.
5.2.2 При проверке квалификации используют различные типы данных, включая количественные, номинальные (категоризированные) и порядковые. Для количественных переменных некоторые результаты могут быть определены по интервальной или относительной шкале либо шкале отношений. В некоторых случаях при измерении количественных величин могут быть получены только дискретные или прерывистые наборы данных (например, при последовательном разбавлении), однако во многих случаях эти данные могут быть обработаны с помощью методов, применяемых к непрерывным данным.
Примечание 1 - Интервальная шкала для количественных величин представляет собой шкалу, на которой можно определить интервалы (разности) значений, но нельзя определить отношения величин, например, шкала Цельсия. Для шкалы отношений значимыми являются как интервалы, так и отношения величин, например, шкала Кельвина или наиболее общие единицы измерения длины.
Примечание 2 - Для качественных величин применяют классификацию по категориям, при этом упорядочивание значений не имеет смысла, например, упорядочивание наименований видов бактерий. Для порядковой шкалы порядок расположения величин имеет значение, но разности между ними не могут быть определены, например, такие понятия, как "большая, средняя, маленькая величины", могут быть упорядочены, но разность между величинами не может быть определена, кроме как в виде промежуточных значений.
5.2.3 Кроме того, программы проверки квалификации могут быть использованы для других целей (см. 0.1 ГОСТ ISO/IEC 17043-2013). Для всех установленных целей конкретной программы проверки квалификации должен быть определен подходящий план эксперимента.
5.3 Анализ статистического распределения результатов
5.3.1 В соответствии с 4.4.4.2 ГОСТ ISO/IEC 17043-2013 методы статистического анализа данных должны быть согласованы со статистическими предположениями относительно данных. Большая часть методов общего статистического анализа данных, используемых при проверке квалификации, предполагает, что набор результатов участников подчиняется приблизительно нормальному распределению или, по крайней мере, унимодальному и достаточно симметричному либо результаты могут быть преобразованы к таким данным. Общее дополнительное предположение состоит в том, что распределение результатов измерений представляет собой смесь, включающую результаты из совокупности ошибочных измерений, являющихся выбросами. Обычно интерпретация в баллах основана на предположении о нормальности распределения, но только для основного предполагаемого распределения для компетентных участников.
5.3.1.1 Как правило, нет необходимости в проверке того, что результаты принадлежат нормальному распределению, но очень важно проверить (хотя бы визуально) симметричность распределения. Если нельзя проверить симметричность плотности распределения, то провайдеру проверки квалификации следует использовать методы, которые устойчивы к асимметрии плотности распределения (см. приложение С).
5.3.1.2 Если ожидаемое распределение для программы проверки квалификации не является достаточно симметричным (с учетом загрязнения выбросами), провайдер программы квалификации должен выбрать методы анализа данных, которые учитывают ожидаемую асимметрию и устойчивы к выбросам, и методы расчета индексов, учитывающие особенности ожидаемого распределения результатов участников.
Такие методы могут включать:
- преобразование, обеспечивающее переход к приближенно симметричному распределению;
- методы оценки, устойчивые к асимметрии распределения;
- методы оценки, учитывающие предположения о распределении (например, метод максимального правдоподобия, подходящий для предполагаемого распределения, при необходимости - исключение выбросов).
Пример 1 - Результаты, полученные на основе разбавления растворов, например при расчетах в микробиологических исследованиях или в методах анализа иммунологического статуса, часто имеют логарифмически нормальное распределение, и первым этапом анализа данных может быть их логарифмическое преобразование.
Пример 2 - Результаты подсчета небольшого количества частиц могут быть распределены в соответствии с распределением Пуассона, и поэтому критерии оценки могут быть определены по таблицам вероятностей Пуассона, на основе расчета среднего для группы участников.
5.3.1.3 В некоторых случаях калибровки результаты участников могут иметь распределение, описанное в процедуре выполнения измерений (например, экспоненциальное, прямоугольное, треугольное или другое распределение); это распределение следует указывать во всех протоколах оценки.
5.3.2 В соответствии с 4.4.4.2 ГОСТ ISO/IEC 17043-2013 провайдер проверки квалификации должен обосновать все используемые статистические предположения. Эти доказательства могут быть основаны, например, на данных наблюдений, результатах предыдущих раундов программы проверки квалификации или технической литературе.
Примечание - Обоснование предположений о виде распределения является менее строгим, чем доказательство справедливости этого предположения.
5.4 Исследования для небольшого количества участников
5.4.1 План эксперимента для программы проверки квалификации должен устанавливать минимальное количество участников, необходимых для достижения поставленных целей, а также альтернативные подходы в том случае, если количество участников будет недостаточным [см. 4.4.4.3, перечисление b) ГОСТ ISO/IEC 17043-2013]. Статистические методы, которые подходят для большого количества участников, не следует применять при недостаточном количестве участников. Опасность состоит в том, что результаты, определяемые при небольшом количестве участников, могут быть недостаточно достоверными, а оценка участника может быть сопоставлена с группой, неподходящей для сравнения.
Примечание - В [2] приведены полезные рекомендации для программ проверки квалификации с небольшим количеством участников. Приписанное значение рекомендуется устанавливать на основе независимых достоверных измерений: например, на основе использования сертифицированных стандартных образцов, независимо от назначенного посредством калибровки национальным метрологическим институтом, или с помощью гравиметрической подготовки образцов. Кроме того, стандартное отклонение для оценки квалификации не может быть определено на основе наблюдаемого разброса результатов участников одного раунда программы проверки квалификации.
5.4.2 Минимальное количество участников, необходимое для выполнения различных статистических методов, зависит от различных ситуаций, в частности:
- используемых статистических методов, например, робастных методов или выбранной стратегии удаления выбросов;