Дополнительное руководство к статистическим процедурам
D.1 Процедуры в случае небольшого количества участников
D.1.1 Общие положения
В программах проверки квалификации обычно принимает участие небольшое количество лабораторий, или при наличии большого общего количества участников выполняют сопоставление групп с небольшим количеством участников. Это происходит, когда участников группируют и подсчитывают оценки с помощью единого метода, как, например, это бывает в медицинских лабораториях.
В том случае, если количество участников невелико, приписанное значение в идеале должно быть определено с использованием валидированной метрологической процедуры независимо от участников, например, путем расчета или по данным эталонной лаборатории.
Критерий оценки функционирования лаборатории также должен быть основан на внешних критериях, таких как выборы экспертов или соответствие целям. В идеальной ситуации, когда качество функционирования оценивают с использованием предварительно определенного приписанного значения и критерия функционирования, проверка квалификации может быть проведена при наличии одного участника. Такой тип межлабораторных сравнительных испытаний можно назвать билатеральным, или аудитом измерений, он может быть очень полезным во многих ситуациях, например, при калибровке.
Если эти идеальные условия не могут быть выполнены, приписанное значение или дисперсия, или то и другое должны быть получены по результатам участников. Если количество участников слишком мало для выполнения конкретной процедуры, то оценка функционирования лаборатории может стать недостоверной, поэтому важно рассмотреть вопрос об установлении минимального количества участников оценки функционирования.
Далее приведено руководство по получению критерия оценки качества работы при небольшом количестве участников, когда для получения критерия функционирования используют результаты участников.
D.1.2 Процедуры идентификации выбросов
Хотя для загрязненных выбросами генеральных совокупностей настоятельно рекомендуется использование робастных статистик, для очень небольших наборов данных их все же не рекомендуют (исключения приведены ниже). Проверка на наличие выбросов для очень маленьких наборов данных, однако, возможна. В случае очень маленьких программ или групп предпочтительным является отклонение выброса с последующим вычислением среднего или стандартного отклонения.
Различные критерии выявления выбросов применимы к различным размерам наборам данных. В ГОСТ Р ИСО 5725-2 приведены таблицы теста Граббса для выявления единичного выброса и для двух одновременных выбросов в одном и том же направлении. В критерии Граббса и ряде других критериев необходимо установить заранее количество возможных выбросов, а при большом количестве выбросов эти критерии не выполняются, лучше всего они работают при >10 (в зависимости от возможной доли выбросов).
Примечание 1 - После исключения выбросов следует соблюдать осторожность при оценке дисперсии, так как оценка может быть смещена в меньшую сторону. Смещение обычно не очень большое, если исключают выбросы, выявляют с уровнем доверия 99% и выше.
Примечание 2 - Большинство одномерных робастных оценок параметров положения и разброса приемлемы при 12.
D.1.3 Процедуры оценки параметра положения
D.1.3.1 Приписанные значения, полученные из небольших наборов данных участников, должны по возможности удовлетворять критерию неопределенности приписанного значения, приведенному в 9.2.1. В ситуации с использованием в качестве приписанного значения среднего и в качестве стандартного отклонения оценки стандартного отклонения результатов этот критерий не может быть использован для нормального распределения с 12 после удаления выбросов. При использовании медианы в качестве приписанного значения (с эффективностью 0,64) критерий не может быть использован для 18. Другие робастные оценки, такие как в алгоритме А (С.3), имеют промежуточную эффективность и могут соответствовать критерию при >12, если учтены положения примечания 2 к 7.7.3.
D.1.3.2 Существуют ограничения на объем набора данных, применяемых для определения некоторых оценок параметра положения. Рекомендуются несколько численных робастных оценок среднего набора данных небольшого объема. Нижний предел, как правило, составляет 15, хотя провайдеры могут иметь возможность продемонстрировать приемлемую работу с учетом установленных предположений для меньших наборов данных. Медиана применима для меньших объемов данных вплоть до =2 (если она равна среднему), но при 35 медиана обладает небольшим преимуществом по сравнению со средним, за исключением тех случаев, когда существует необычно высокий риск получения плохих результатов.
D.1.4 Процедуры оценки дисперсии
D.1.4.1 Не рекомендуется использовать критерии функционирования, основанные на разбросе результатов участников для набора данных небольшого объема из-за очень высокой изменчивости всех оценок разброса. Например, при =30 оценки стандартного отклонения для данных из нормального распределения в среднем отклоняются от истинного значения не более чем на 25% (с уровнем доверия 95%). Для данных из нормального распределения не существует лучших оценок.
D.1.4.2 Если оценки разброса необходимы для других целей (например, как суммарные статистики или оценка разброса данных для робастной оценки параметра положения) или если программа проверки квалификации устойчива к высокой изменчивости оценок разброса данных, для небольших наборов данных следует выбирать оценки разброса с самой высокой доступной эффективностью.
Примечание 1 - Под высокой доступностью следует понимать наличие программного обеспечения и соответствующего опыта.
Примечание 2 - Оценка стандартного отклонения, описанная в С.5, является значительно более эффективной, чем MADe или nlQR из С.1.
Примечание 3 - При очень небольших наборах данных для робастных оценок разброса данных необходимо использовать следующие рекомендации [2]:
- для =2 необходимо использовать ;
- =3, если параметр положения и шкала неизвестны, необходимо использовать MADe для защиты от чрезмерно высоких оценок стандартного отклонения или среднего абсолютного значения отклонения, для защиты от слишком маленьких оценок стандартного отклонения, например, если из-за ошибок округления могут быть получены два одинаковых значения;
- 4 необходимо использовать установленную М-оценку стандартного отклонения, полученную на основе логарифмически взвешенной функции, рекомендуемой в [19], а также близкий эквивалент алгоритма А без итерации при определении параметра положения с использованием медианы в качестве оценки параметра положения.
Примечание 4 - Для получения оценки стандартного отклонения на основе абсолютного значения разности и медианы используют следующую формулу:
. (D.1)