Статус документа
Статус документа

Выбор группы маркерных веществ для оптимизации системы мониторинга атмосферного воздуха

3.2. Предварительная обработка данных


В связи с применением в настоящей методике вероятностных способов оценки необходима предварительная статистическая обработка имеющихся массивов данных, которая предназначена для выявления грубых ошибок. При анализе аномальных (резко выделяющихся) наблюдений для отдельно взятого фактора его значения рассматриваются как самостоятельный вариационный ряд и для него определяются аномальные наблюдения с 5%-ным уровнем значимости.

Анализ аномальных наблюдений выполняется до основной обработки данных. Это необходимо для исключения из матрицы исходных данных грубых ошибок и резко выделяющихся наблюдений, уровни которых сложились под влиянием особых факторов, не характерных для основной совокупности. Аномальные наблюдения определяются для каждого значения фактора в отдельности с использованием статистики:

,


где - -тое наблюдение -того фактора;

- среднее значение -того фактора;

- среднее квадратическое отклонение -того фактора.

Данная статистика имеет распределение Стьюдента и сравнивается с табличным значением коэффициента Стьюдента для уровня значимости =0,95 с степенями свободы (где - количество наблюдений). Если значение , то данное наблюдение является аномальным и подлежит корректировке или удалению.

Следует отметить, что резко выделяющиеся наблюдения могут содержать достаточно важную информацию, и при удалении из анализируемой совокупности аномальных наблюдений теряется потенциально важная информация о факторах. Поэтому вместо удаления таких наблюдений используются процедуры оценки параметров распределения, нечувствительные к структуре данных. Эти процедуры оценивания называются робастными. Одна из таких процедур - винзоризованные оценки. Сущность данной процедуры заключается в замене кратных аномальных значений упорядоченного ряда на последующие и предшествующие значения наблюдений этого ряда.