Выборочная совокупность представляет собой объединение всех единиц наблюдения, включенных в первый массив, и независимых расслоенных случайных выборок из второго и третьего массивов.
Список единиц второго массива на региональном уровне расслаивается по кодам ОКВЭД на уровне 3 знаков и оптимально с минимизацией дисперсии по заданному показателю (выручка или средняя численность работников). Границы слоев определяются автоматизированно, при необходимости могут корректироваться вручную. Для расслоения используется алгоритм, основанный на правиле Экмана. Согласно этому правилу для достижения минимальной дисперсии оценки показателя, рассчитанной по выборке, границы слоев нужно выбирать такими, чтобы наилучшим образом выполнялось следующее приближенное равенство:
, (1)
где:
- объемы слоев;
, h=1, ..., H - границы слоев;
= x, а = x - минимальное и максимальное значения расслаивающего признака.
Таким образом, из 2 массива производится расслоенный случайный отбор, предусматривающий группировку по следующим признакам:
- коды okved 3 знака (подклассы),
- выручка (средняя численность работников).
Объем выборки из второго массива составляет не более 20% от числа предприятий, включенных в данный массив. В целях распределения установленного объема выборки по слоям используется метод оптимального размещения по Нейману по показателю выручка.
Оптимальное размещение задается соотношением:
, (2)
где:
n - объем выборки;
H - число слоев;
h = 1, 2 ..., H - номер слоя;
- объем выборки из h-го слоя;
- объем h-го слоя;
- квадратный корень из ;
- дисперсия h-го слоя, рассчитывается по формуле:
,
где:
- значение расслаивающего признака (х) элемента К основы выборки;
- среднее значение признака (х) в h-м слое.
Список единиц третьего массива расслаивается только по кодам ОКВЭД на уровне 3 знаков. В целях распределения установленного для 3 массива объема выборки по слоям используется метод пропорционального размещения.
Пропорциональное размещение задается соотношением:
, (3)