Сравнение двух независимых выборок по Колмогорову и Смирнову
Если необходимо сравнить две независимые выборки измерений (или значений частот) и ответить на вопрос, относятся ли они к одной и той же генеральной совокупности, то наиболее строгим критерием однородности является критерий Колмогорова и Смирнова. Он включает в себя проверку всех видов различия распределений, в особенности различия средних положений (среднее значение, медиана), рассеяния, асимметрии и эксцесса, то есть различия функции распределения.
В качестве статистики служит наибольшая разность между ординатами обеих относительных кривых накопленных частот. При этом (при одинаковых для обеих выборок границах классов) накопленные частоты и делятся на соответствующие объемы выборок и . Затем вычисляют разность . Максимум абсолютного значения этой разности и есть искомая статистика D (для более интересного в этом случае двустороннего критерия)
. (И.1)
Распределение статистики D было табулировано Смирновым.
Для средних и больших объемов выборок (35) критическое значение может быть приближенно заменено выражением
, (И.2)
где - постоянная, зависящая от вероятности ошибки . Значения приведены в таблице И.1.
Таблица И.1 - Значения в зависимости от
0,20 | 0,15 | 0,10 | 0,05 | 0,01 | 0,001 | |
1,07 | 1,14 | 1,22 | 1,36 | 1,63 | 1,95 |
Если вычисленное на основании двух выборок значение D равно критическому значению или превосходит его, то имеется значимое различие.
Применение критерия на примере: необходимо сравнить два ряда измерений. О возможных различиях какого-либо вида ничего не известно. Следует проверить нуль-гипотезу: генеральные совокупности одинаковы, против альтернативной гипотезы: генеральные совокупности имеют различные распределения (0,05, критерий двусторонний).
Ряд измерений 1:2,1 3,0 1,2 2,9 0,6 2,8 1,6 1,7 3,2 1,7
Ряд измерений 2: 3,2 3,8 2,1 7,2 2,3 3,5 3,0 3,1 4,6 3,2
Десять значений каждого ряда упорядочим по величине.
Ряд измерений 1: 0,6 1,2 1,6 1,7 1,7 2,1 2,8 2,9 3,0 3,2
Ряд измерений 2: 2,1 2,3 3,0 3,1 3,2 3,2 3,5 3,8 4,6 7,2
Из распределений частот ( и ) обеих выборок определяют накопленные частоты и и вычисляют отношения и . Результаты вычислений приведены в таблице И.2.
Таблица И.2
Интервал | 0,0-0,9 | 1,0-1,9 | 2,0-2,9 | 3,0-3,9 | 4,0-4,9 | 5,0-5,9 | 6,0-6,9 | 7,0-7,9 |
1 | 4 | 3 | 2 | 0 | 0 | 0 | 0 | |
0 | 0 | 2 | 6 | 1 | 0 | 0 | 1 | |
1/10 | 5/10 | 8/10 | 10/10 | 10/10 | 10/10 | 10/10 | 10/10 | |
0/10 | 0/10 | 2/10 | 8/10 | 9/10 | 9/10 | 9/10 | 10/10 | |
1/10 | 5/10 | 6/10 | 2/10 | 1/10 | 1/10 | 1/10 | 0 |
В качестве абсолютно наибольшей разности получаем значение D=6/10, которое меньше, чем критическое значение 7/10; следовательно, гипотеза об однородности сохраняется: на основании имеющихся выборок нельзя отвергать возможность существования общей генеральной совокупности.