Госстандарт проверки нормальностиКраткое описание: Ссылка:
http://docs.cntd.ru/document/gost-r-iso-5479-2002
https://docs.cntd.ru/document/1200029041 ГОСТ Р ИСО 5479-2002 Группа Т59
ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Статистические методы
ПРОВЕРКА ОТКЛОНЕНИЯ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ОТ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Statistical methods. Tests for departure of the probability distribution from the normal distribution ОКС 03.120.30 ОКСТУ 0011 Дата введения 2002-07-01 Предисловие 1 РАЗРАБОТАН И ВНЕСЕН Техническим комитетом по стандартизации ТК 125 "Статистические методы в управлении качеством продукции"; Акционерным обществом "Научно-исследовательский центр контроля и диагностики технических систем" (АО НИЦ КД) 2 ПРИНЯТ И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Госстандарта России от 22 января 2002 г. N 25-ст 3 Настоящий стандарт представляет собой аутентичный текст международного стандарта ИСО 5479-97 "Статистическое представление данных. Проверка отклонения распределения вероятностей от нормального распределения" 4 ВВЕДЕН ВПЕРВЫЕ Введение Настоящий стандарт устанавливает критерии, с помощью которых можно проверить, подчиняется ли генеральная совокупность данных нормальному закону распределения. Это следующие виды критериев: графический метод, направленный критерий, многонаправленный критерий, многосторонний критерий, совместный критерий для нескольких независимых выборок. Целью настоящего стандарта является - привести критерии, удобные для использования специалистами в промышленности для проверки на нормальность различных данных в ходе проведения измерений, контроля и испытаний. В настоящем стандарте рассматриваются способы построения статистик и правила принятия решений для критериев проверки на нормальность. 1 Область применения 1.1 Настоящий стандарт устанавливает методы и критерии для проверки отклонения распределения вероятностей от нормального распределения при независимых наблюдениях. 1.2 Применение критерия на отклонение от нормального распределения необходимо во всех случаях, когда есть сомнение, нормально ли распределены наблюдения. В случае робастных методов (то есть таких, что результаты наблюдений незначительно изменяются, когда реальное распределение вероятностей наблюдений ненормально) критерий на отклонение от нормального распределения не применяют. Например случай, когда выборочное среднее арифметическое единственной случайной выборки, полученной в результате наблюдений, необходимо сопоставить с данным теоретическим значением с использованием -критерия. 1.3 Необязательно использовать такой критерий при каждом обращении к статистическим методам, основанным на гипотезе нормальности. Существуют случаи, когда в нормальности распределения наблюдений нет сомнения: есть теоретические (например физические) обоснования, подтверждающие гипотезу, или гипотезу считают приемлемой согласно априорной информации. 1.4 Критерии на отклонение от нормального распределения, установленные в настоящем стандарте, в основном рассчитаны на полные, несгруппированные данные. 2 Нормативные ссылки В настоящем стандарте использована ссылка на следующий стандарт: ГОСТ Р 50779.10-2000 (ИСО 3534.1-93) Статистические методы. Вероятность и основы статистики. Термины и определения 3 Определения и обозначения 3.1 Определения В настоящем стандарте применяются термины с соответствующими определениями по ГОСТ Р 50779.10. 3.2 Обозначения В настоящем стандарте использованы следующие обозначения:
4 Общие положения 4.1 Существуют различные критерии на отклонение от нормальности. В настоящем стандарте установлены графические методы, моментные критерии, регрессионные критерии и критерии характеристических функций. Критерии хи-квадрат подходят только для сгруппированных данных, и так как группирование приводит к потере информации, в данном стандарте они не рассмотрены. 4.2 Если о выборке нет дополнительной информации, рекомендуется сначала построить нормальный вероятностный график, то есть построить кумулятивную функцию распределения значений, полученных в результате наблюдений, на бумаге для нормальных вероятностных графиков с осями координат, в которых кумулятивная функция нормального распределения представлена прямой линией. Этот метод, установленный в разделе 5, позволяет сразу видеть, близко ли полученное распределение к нормальному. Используя данную дополнительную информацию, необходимо решить, какой критерий можно применить: направленный, регрессионный, критерий характеристической функции или никакой. Такое графическое представление нельзя рассматривать как строгий критерий, но даваемая им суммарная информация является существенным дополнением к любому критерию на отклонение от нормального распределения. В случае отклонения нулевой гипотезы эта информация дает возможность определить тип альтернативной гипотезы, которая могла бы быть применима. 4.3 Критерий на отклонение от нормального распределения имеет нулевую гипотезу, состоящую в том, что выборка содержит значений независимых наблюдений, подчиняющихся одному и тому же нормальному распределению. Он заключается в вычислении функции от этих значений, называемой статистикой критерия. Нулевую гипотезу о нормальности распределения принимают или отклоняют в зависимости от того, лежит ли статистика в области ожидаемых значений, соответствующих нормальному распределению. 4.4 Критическая область критерия - это совокупность значений , ведущих к отклонению нулевой гипотезы. Уровень значимости критерия - это вероятность получения значения в критической области, когда нулевая гипотеза верна. Этот уровень дает вероятность ошибочного отклонения нулевой гипотезы (вероятность ошибки первого рода). Граница критической области (или в случае двустороннего критерия - границы критической области) - это критическое значение(ния) статистики критерия. 4.5 Мощность критерия - это вероятность отклонения нулевой гипотезы, когда она неверна. Высокая мощность соответствует низкой вероятности ошибочного применения нулевой гипотезы (вероятности ошибки второго рода). Мощность критерия (то есть для данной ситуации вероятность, что нулевая гипотеза о нормальности распределения будет отклонена, если она неверна) возрастает с ростом числа наблюдений. Например, отклонение от нормального распределения, которое могло быть очевидным при использовании критерия с большой выборкой, можно не обнаружить при том же значении критерия с меньшей выборкой. 4.6 Существуют два вида критериев на отклонение от нормального распределения: направленный критерий - когда форму этого отклонения устанавливают в альтернативной гипотезе и многосторонний критерий - когда форму отклонения в ней не устанавливают. В направленном критерии критическую область определяют так, чтобы мощность критерия достигала максимального значения. В многостороннем критерии необходимо отделить критическую область так, чтобы она состояла из значений статистики критерия, лежащих далеко от ожидаемого значения. Если имеются предположения о форме отклонения от нормального распределения, то есть рассматривается распределение, у которого асимметрия или кривизна отличны от свойственных нормальному распределению, то следует применить направленный критерий, так как его мощность больше, чем у многостороннего. 4.7 Направленный критерий является односторонним. В случае асимметрии он сдвигается к положительной или отрицательной асимметрии. Если совместно рассматривают несколько альтернативных гипотез - это критерий многонаправленный. Такие критерии используют при совместном рассмотрении ненулевых асимметрии и кривизны, отличных от свойственных нормальному распределению. 4.8 Таблицы 8-14 и рисунок 9 позволяют применять критерии для наиболее распространенных уровней значимости , то есть =0,05 и =0,01. До использования критерия следует установить уровень значимости. Критерий может привести к отклонению нулевой гипотезы при уровне значимости 0,05 и не отклонению той же гипотезы при уровне значимости 0,01. 4.9 При вычислении статистики критерия необходимо использовать не менее шести значащих цифр. Значения подсовокупностей, промежуточных результатов и вспомогательных величин следует округлять не менее чем до шести значащих цифр.
5 Графический метод 5.1 Кумулятивную функцию распределения наблюденных значений строят на бумаге для нормальных вероятностных графиков. Вертикальная ось имеет нелинейную шкалу, соответствующую площади под стандартной функцией нормального распределения и размечена значениями кумулятивной относительной частоты. Другая ось имеет линейную шкалу для упорядоченных значений . Если кумулятивная функция распределения переменной приближается к прямой линии, то распределение переменной будет нормальным. Иногда эти оси меняют местами. Если выполнено нормирование переменной , линейную шкалу можно заменить логарифмической, квадратичной, обратной или другой шкалой. На рисунке 1 приведен пример бумаги для нормальных вероятностных графиков. По вертикальной оси значения кумулятивной относительной частоты даны в процентах, а по горизонтальной - произвольная линейная шкала.
Рисунок 1 - Бумага для нормальных вероятностных графиков
Чистый бланк бумаги для нормальных вероятностных графиков приведен в приложении А.
Если график на этой бумаге представлен набором точек, которые рассеянны около прямой линии, то это дает первое подтверждение утверждению, что генеральная совокупность, из которой взята выборка, подчиняется нормальному закону распределения.
Этот подход важен тем, что дает наглядную информацию по типу отклонения от нормального распределения.
Если график показывает, что данные подчинены другому распределению, не имеющему отношения к нормальному (например график кумулятивной функции распределения такой, как на рисунке 5 или 6), то в некоторых случаях к нормальному распределению можно перейти с помощью специального преобразования.
Если график показывает, что данные не подчиняются простому однородному распределению, а скорее всего принадлежат смеси двух или нескольких однородных подсовокупностей (например, если график кумулятивной функции распределения такой, как на рисунке 7), то рекомендуется выявить подсовокупности и анализ каждой из них проводить отдельно.
Этот графический метод не является критерием на отклонение от нормального распределения в строгом смысле. Например, в случае малых выборок с его помощью можно получить выраженные кривые нормальных распределений, но для больших выборок кривые могут представлять ненормальные распределения.
5.2 Графическая процедура состоит в расположении наблюденных значений () в неубывающем порядке и затем в нанесении значений вероятности , рассчитанных по формуле
, (1)
на бумагу для нормальных вероятностных графиков (где - порядковый номер ; ).
Примечание 1 - Часто вместо формулы (1) применяют следующие формулы: и . Применение данных формул не рекомендуется, так как они дают плохую аппроксимацию нормальной функции распределения ожидаемой порядковой статистики .
5.3 Пример использования бумаги для нормальных вероятностных графиков показан на рисунке 2.
Рисунок 2 - График серии наблюдений на бумаге для нормальных вероятностных графиков
В таблице 1 приведены значения в порядке неубывания как результат серии из 15 независимых наблюдений при испытаниях на усталость вращающегося соединения.
Таблица 1 - Значения серии из 15 независимых наблюдений и соответствующие им значения
Примечание 2 - В таблице 1 и последующих примерах единицы величин опущены, так как это несущественно для рассматриваемых критериев в данном стандарте.
Серию точек, показанную на рисунке 2а) получают на основе значений вероятностей и . Из графика видно, что эти точки не образуют прямой линии. Если заменить на , то новый график на рисунке 2b) близок к прямой линии. Из этого следует, что гипотеза нормального распределения для логарифма наблюдений адекватна.
5.4 Рассеяние полученных экстремальных значений больше, чем у средних арифметических значений, поэтому шкала кумулятивной относительной частоты расширяется к краям. Наличие небольшого числа значений на любом конце графика функции кумулятивного распределения, которые заметно отклоняются от прямой линии, определяемой средними арифметическими значениями, нельзя рассматривать как показатель отклонения от нормального распределения.
Чем больше объем выборки, тем более надежны заключения, которые можно вывести из вида графика функции распределения.
Если график кумулятивной функции распределения наблюдаемых значений таков, что большие значения находятся ниже прямой линии, образуемой другими значениями, то такое преобразование как или приведет к графику, более соответствующему прямой линии [см. рисунки 2b) и 5].
На рисунках 3-7 верхние графики представляют собой кумулятивные функции распределения; для сравнения нижние графики представляют соответствующие функции плотности распределения.
Рисунок 3 - Кумулятивная функция распределения (вверху) и функция плотности распределения с меньшей кривизной (внизу)
Рисунок 4 - Кумулятивная функция распределения (вверху) и функция плотности распределения с большой кривизной (внизу)
Рисунок 5 - Кумулятивная функция распределения (вверху) и функция плотности распределения с положительной асимметрией (внизу)
Рисунок 6 - Кумулятивная функция распределения (вверху) и функция плотности распределения с отрицательной асимметрией (внизу)
Рисунок 7 - Функции, полученные наложением двух различных кумулятивных функций распределения (вверху) и функций плотности распределения (внизу)
Если график кумулятивной функции распределения полученных значений подобен графикам на рисунках 3 или 4, то соответствующее частотное распределение имеет меньшую кривизну (график более плоский) или большую кривизну (график более выпуклый) соответственно.
Графики кумулятивных функций распределения на рисунках 5 и 6 относятся к функциям плотности распределения с положительной и отрицательной асимметрией.
На рисунке 7 представлены кумулятивная функция распределения и функция плотности распределения, полученные от наложения двух различных функций плотности.
6 Направленные критерии
6.1 Общие положения
6.1.1 Направленные критерии относятся к характеристикам асимметрии или эксцесса распределения вероятностей наблюдений. Они основаны на фактах, что в случае нормальной случайной переменной со средним :
центральный момент третьего порядка равен
; (2)
нормированный центральный момент третьего порядка (асимметрия совокупности) равен
; (3)
нормированный центральный момент четвертого порядка (кривизна совокупности) равен
, (4)
где - момент второго порядка; (5)
- момент четвертого порядка; (6)
- асимметрия совокупности, которая может быть большей, равной или меньшей чем нуль;
- кривизна совокупности (всегда положительная);
- эксцесс совокупности.
При этом всегда выполняется неравенство .
6.1.2 В критерии на асимметричность альтернативную гипотезу можно задать в виде
, что эквивалентно [положительная асимметрия, (см. рисунок 5)] или
, что эквивалентно [отрицательная асимметрия, (см. рисунок 6)].
Распределение вероятностей с положительной асимметрией имеет повышенное рассеяние больших, а не малых значений переменных. Обратное верно для случая с отрицательной асимметрией.
6.1.3 В критерии на эксцесс совокупности альтернативную гипотезу можно задать в виде:
, что означает большую кривизну [функция плотности распределения более выпуклая (см. рисунок 4)] или
, что означает меньшую кривизну [функция плотности распределения более плоская (см. рисунок 3)].
По сравнению с нормальным распределением в распределении с большей кривизной преобладают значения переменной, близкие к среднему и к обоим краям. Обратное верно для меньшей кривизны.
6.1.4 Направленный критерий применяют только при наличии конкретной информации о том, как распределение может отличаться от нормального. Эта информация может исходить из физической природы данных или вида возмущения, которое может повлиять на процесс, генерирующий совокупность данных.
Например тот факт, что переменная неотрицательна со средним арифметическим, близким к нулю, в сравнении со значением стандартного отклонения, может быть основанием для положительной асимметрии реального распределения вероятностей. Аналогично, любое возмущение в генерирующем совокупность данных процессе, которое создает смесь нормальных совокупностей с одним средним, но разными дисперсиями, приводит к распределению вероятностей, отличному от нормального с .
6.1.5 Выбор направленного критерия следует основывать на общих соображениях о природе наблюдений или процесса, генерирующего эти наблюдения, а не на конкретной форме распределения вероятностей наблюдаемых значений. В последнем случае могут считаться объективными только результаты многостороннего критерия.
6.1.6 Если - значения случайной переменной серии из наблюдений, то среднее арифметическое или момент первого порядка рассчитывают по формуле
; (7)
моменты второго, третьего и четвертого порядков соответственно (=2, 3, 4) рассчитывают по формуле
. (8)
Статистики критерия на асимметричность и кривизну представлены в следующем виде соответственно:
(9)
и
. (10)
6.2 Направленный критерий проверки на асимметрию, использующий статистику
Этот критерий применим при (из практических соображений таблица 8 ограничена значением ).
Если альтернативная гипотеза заключается в наличии положительной асимметрии, критерий следует выполнять только при условии . Если альтернативная гипотеза заключается в наличии отрицательной асимметрии, критерий следует выполнять только при условии .
В обоих случаях решение принимают в пользу отклонения нулевой гипотезы при уровне значимости , когда статистика превышает -квантиль для .
В таблице 8 приведены значения статистики для =0,95, =0,99 и объема выборки .
Пример 1
Пример относится к применению направленного критерия с альтернативной гипотезой с использованием статистики . В таблице 2 приведена серия из 50 независимых измерений толщины заболони* деревьев, предназначенных для использования в качестве телеграфных столбов. Поскольку эта толщина неотрицательна и близка к нулю, можно предположить положительную асимметрию. Поэтому необходимо применить соответствующий направленный критерий с альтернативной гипотезой (). _________________ * Заболонь - наружный молодой, менее плотный слой древесины, лежащий непосредственно под корой.
Таблица 2 - Значения толщины заболони для =50
Из полученных в ходе наблюдений значений, приведенных в таблице 2, вычислены следующие параметры:
;
;
,
где - среднее арифметическое;
, - моменты второго и третьего порядков соответственно.
Следовательно асимметрия совокупности равна .
При уровне значимости =0,05, то есть , и объеме выборки критическое значение статистики критерия (значение -квантили) равно 0,53 (см. таблицу 8). Это значение более, чем вычисленное значение . Значит нулевая гипотеза нормального распределения не отклоняется при выбранном уровне значимости.
6.3 Направленный критерий проверки на кривизну с использованием статистики
Этот критерий применим при ; из практических соображений таблица 9 ограничена значением .
В критерии на большую кривизну альтернативная гипотеза представлена в следующем виде: . Если вычисленное значение превышает критическое значение статистики критерия (значение -квантили) при или и объеме выборки , то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например =0,05 или =0,01.
В критерии на меньшую кривизну альтернативная гипотеза представлена в следующем виде: . Если вычисленное значение менее критического значения статистики критерия (значение -квантили) при =0,05 или =0,01 и объеме выборки , то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например =0,05 или 0,01.
В таблице 9 приведены критические значения статистики критерия (значение -квантили) для =0,01, 0,05, 0,95 и 0,99 и объема выборки .
Пример 2
Пример относится к применению направленного критерия на кривизну с использованием статистики . В таблице 3 приведена серия из 50 независимых измерений. В измерительном приборе существует дефект. Некоторые из измерений могли подвергнуться влиянию этого дефекта, приводящего к вариации рассеяния этих измерений.
Из-за упомянутого дефекта можно предположить, что для распределения наблюдений необходимо использовать статистику , соответствующий направленный критерий и альтернативную гипотезу .
Таблица 3 - Серия из 50 измерений
На основе полученных значений, приведенных в таблице 3, вычислены следующие параметры:
;
;
,
где - среднее арифметическое;
, - моменты второго и четвертого порядков соответственно.
Следовательно кривизна совокупности .
При уровне значимости =0,05, то есть , и объеме выборки =50 критическое значение статистики (значение -квантили) критерия равно 3,99 (см. таблицу 9). Вычисленное значение =4,916 более этого критического значения, поэтому нулевая гипотеза отклоняется в пользу альтернативной при уровне значимости =0,05. Это значит, что распределение значений, полученных в результате измерений, искажено и имеет большую кривизну.
Кроме того, критическое значение статистики при уровне значимости =0,01 равно 4,88, поэтому отклонение нулевой гипотезы подтверждено и на этом уровне. Можно сделать вывод, что существование реального искажения данных более правдоподобно.
7 Совместный критерий, использующий статистики и (многонаправленный критерий)
Совместный критерий применим при .
7.1 Альтернативная гипотеза состоит в следующем: распределение вероятностей имеет асимметрию, отличную от нуля, и (или) кривизна отлична от кривизны, свойственной нормальному распределению (без указания направления каждого отклонения). Альтернативная гипотеза имеет один из видов:
( и (или) ).
Каждое из сочетаний , или , , или , может быть выбрано на равных основаниях. Тест многонаправленный и предназначен выявить сочетание ненулевой асимметрии и (или) кривизны .
Данный совместный критерий из-за выбора статистики нельзя считать многосторонним критерием в строгом смысле. Для направленных критериев его применение может быть оправдано только соображениями, основанными на природе наблюдений или процесса, генерирующего это наблюдение.
7.2 Статистика этого критерия образована парой значений статистик и , определенных в формулах (9) и (10) по 6.1.6. При нулевой гипотезе нормальности можно построить область вокруг точки (0; 3), в которую точка попадает с вероятностью (с осями координат , ). Кривые, ограничивающие эту область, показаны на рисунке 9а) при =0,95 и рисунке 9b) при =0,99 для различных объемов выборки .
При уровне значимости критическая область критерия образована точками, лежащими вне кривой, соответствующей объему выборки .
Пример 3
Совместный критерий, использующий статистики и , можно применить к данным примера 2.
На основе значений, приведенных в таблице 3, вычисляют выборочный центральный момент третьего порядка:
.
Отсюда .
На рисунке 9b) точка лежит далеко вне кривой, соответствующей объему выборки =50 для уровня значимости =0,01.
Поэтому нулевую гипотезу нормального распределения отклоняют на этом уровне значимости в пользу альтернативной гипотезы. Это означает, что распределение вероятностей измеренной характеристики отлично от нормального.
8 Многосторонние критерии
8.1 Общие положения
8.1.1 Многосторонние критерии применяют в том случае, если нет априорной информации о типе отклонения от нормального распределения.
8.1.2 В настоящем стандарте представлены два многосторонних критерия: Шапиро-Уилка и Эппса-Палли. Критерий Шапиро-Уилка выбирают, когда на основе исходных данных можно выбрать альтернативную гипотезу следующего вида: примерно симметричное распределение с убывающей кривизной (то есть и ) или асимметричное распределение (например ), в противном случае выбирают критерий Эппса-Палли.
8.2 Критерий Шапиро-Уилка
Этот критерий применим при . Малые выборки с при обнаружении отклонений от нормального распределения не дают достоверных результатов.
Критерий основан на регрессионном анализе порядковых статистик по их ожидаемым значениям. Это критерий типа дисперсионного анализа для полной выборки. Статистика критерия - отношение квадрата суммы линейной разности выборочных порядковых статистик к обычной оценке дисперсии.
Критерий основан на упорядоченных наблюдениях. Если серию из независимых наблюдений, расположенную в порядке неубывания, как указано в 5.3, обозначить символами , то вычисляют промежуточную сумму по формуле:
, (11)
где - индекс, имеющий значения от 1 до или от 1 до при четном и нечетном соответственно;
- коэффициент, имеющий специальные значения для объема выборки (значения приведены в таблице 10).
В этом случае статистика критерия принимает вид:
, (12)
где ;
- объем выборки;
- выборочный центральный момент второго порядка.
Если значения некоторых наблюдений равны, упорядоченная серия нумеруется с повторением равных наблюдений столько раз, сколько они возникают в исходной серии.
При уровне значимости критическая область критерия образована значениями, меньшими чем -квантиль для . Таблица 11 содержит -квантили статистики критерия для =0,01 и =0,05.
Пример 4
Пример применения критерия Шапиро-Уилка. Таблица 4 содержит упорядоченную серию из =44 независимых значений годовых осадков, собранных на метеостанции. Используя табличные значения, можно вычислить:
.
.
Таблица 4 - Ежегодные осадки, зафиксированные на метеостанции
Для облегчения вычислений в таблице приведены значения , и .
Используя значения коэффициента , взятые из таблицы 10 и воспроизведенные в таблице 4, можно вычислить значения :
.
Следовательно .
Таблица 11 дает значение -квантиля для =44 и =0,05, равное 0,944. Поскольку это значение менее значения , то нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости =0,05.
8.3 Критерий Эппса-Палли
Этот критерий применим при . Малые выборки с <8 при обнаружении отклонений от нормального распределения не дают достоверных результатов.
Многосторонний критерий с высокой мощностью при многих альтернативных гипотезах использует сумму квадратов модулей разности между характеристическими функциями на основе выборочных данных и нормального распределения с весомыми коэффициентами.
По наблюдениям (=1, 2, ..., ) вычисляют следующие параметры:
(13)
и
, (14)
где - среднее арифметическое;
- выборочный центральный момент второго порядка;
- объем выборки.
Статистику критерия Эппса-Палли вычисляют по формуле
. (15)
Порядок значений произволен, но он должен оставаться неизменным в течение всех проводимых вычислений.
Алгоритм вычисления статистики критерия Эппса-Палли представлен на рисунке 8.
Рисунок 8 - Алгоритм вычисления статистики критерия Эппса-Палли
Нулевую гипотезу отклоняют, если вычисленное значение статистики превышает -квантиль при данных уровне значимости и объеме выборки . -Квантили статистики критерия при =0,90; 0,95; 0,975 и 0,99 приведены в таблице 12.
Пример 5
Пример применения критерия Эппса-Палли. Таблица 5 содержит серию из 25 значений показателя прочности вискозной нити, измеренной при стандартных условиях в произвольных единицах. Дополнительно даны преобразованные значения , которые рассеяны около прямой линии, нанесенной на бумаге для нормальных вероятностных графиков.
Таблица 5 - Значения показателя прочности вискозной нити
На основе данных таблицы 5 вычислено значение статистики критерия =0,612 с использованием калькулятора. Используем таблицу 12 для поиска значения квантиля уровня =0,99 при =25. В таблице установлены следующие значения:
для =20 -квантиль равен 0,564;
для =30 -квантиль равен 0,569.
С помощью интерполяции значений, приведенных в таблице 12, можно оценить, что -квантиль для =25 будет равен приблизительно 0,567. Вычисленное значение превышает это критическое значение, поэтому нулевая гипотеза отклоняется при уровне значимости =0,01 для значений .
На основе данных таблицы 5 найдено =0,006. Поскольку это значение менее критического значения для =25, то нулевая гипотеза для преобразованных значений не отклоняется.
Этот пример подтверждает известный факт, что значения показателя прочности вискозной нити подчиняются логарифмически нормальному закону распределения.
Пример 6
Пример детально описывает процедуру вычисления статистики критерия в соответствии с формулой (15).
Второй столбец таблицы 6 содержит =10 значениям , для которых должен быть проведен критерий Эппса-Палли. Согласно выражениям (13) и (14), получаем =10,4 и =11,858.
Таблица 6 - Значения показателя прочности вискозной нити - вычисление статистики критерия
Двойная сумма в третьем члене выражения (15) является конечной серией () подсерий, первая из которых имеет один член, а последняя () член.
Для первой подсерии установлен индекс =2 и единственный член суммы, равный
, получен при =1. Во второй подсерии установлен индекс =3 и сумма имеет два члена, равные:
и ,
которые получены при =1 и =2. Для последней подсерии фиксирован индекс =10, и сумма имеет 9 членов, равные:
,
которые получены при =1, 2, 3, ..., 9.
Значения членов для -1=9 подсерий перечислены в столбцах 3-11 таблицы 6.
12-й столбец показывает =10 членам суммы в четвертом члене выражения (15).
Для каждого из последних 10 столбцов таблицы 6 вычислены их суммы и указаны внизу столбца.
Все 45 членов, принадлежащих сумме в третьем члене выражения (15), после суммирования дали общую сумму .
Окончательно выражение (15) подсчитано и равно
.
При =10 таблица 12 содержит значение -квантиля для =0,95, равное 0,357. Вычисленное значение =0,2914 не превышает это критическое значение, поэтому в этом примере нулевая гипотеза не отклоняется при уровне значимости =0,05.
9 Совместный критерий, использующий несколько независимых выборок
Критерий применим при нескольких выборках одинакового объема с , однако из практических соображений таблица 13 ограничена значениями коэффициентов для . Она основана на предположении, что независимые выборки взяты из одной совокупности.
Во многих случаях необходимо проверить отклонение от нормального распределения, используя несколько независимых выборок, поскольку каждая отдельная выборка слишком мала, чтобы обнаружить даже значительное отклонение от нормального распределения. В такой ситуации применяют модифицированный критерий Шапиро-Уилка.
Для последовательных выборок объемом каждая, отобранных из одной совокупности, подсчитывают значения (=1, 2, ..., ) согласно выражению (12). Для совместного критерия вычисляют промежуточные значения статистики совместного критерия по формуле
, (16)
где - вспомогательная величина совместного критерия, рассчитываемая по формуле
; (17)
, и - коэффициенты для преобразования в , приведенные в таблице 13.
В случае, если основное распределение вероятностей нормальное, переменные приблизительно следуют стандартному нормальному распределению. Среднее арифметическое значение переменной равно
, (18)
и статистикой критерия является выражение , где - число последовательных выборок.
Нулевая гипотеза отклоняется при уровне значимости , если
, (19)
где - -квантиль стандартного нормального закона распределения.
Пример 7
Пример применения совместного критерия, использующего несколько независимых выборок. Имеются 22 случайные выборки (=22), каждая объемом =20, отобранные из одной совокупности. Измеряют значение случайной переменной этих 20 объектов, которая в предположении имеет распределение, отличное от нормального. Для каждой выборки вычисляют соответствующие значения (=1, 2, ..., 22) согласно выражению (12). 22 значения приведены в таблице 7. Из таблицы 13 взяты следующие коэффициенты:
; ; .
Используя эти значения коэффициентов, вычисляют соответствующие 22 значения согласно выражениям (16) и (17); значения и приведены в таблице 7.
Таблица 7 - Значения и для 22 выборок объемом =20, взятых из одной совокупности
По таблице 11, находят значение статистики (значение -квантили) , равное 0,868 для =20 при уровне значимости =0,01.
Из таблицы 14 значение -квантили для равно
при уровне значимости =0,01.
По результатам обработки каждой из этих 22 выборок нельзя выявить отклонение от нормального распределения при данном уровне значимости =0,01, поскольку ни одно из значений не менее критического значения 0,868 и ни одно из значений не менее критического значения минус 2,326.
Совместное оценивание всех 22 выборок дает и .
Значение сравнивается со значением при уровне значимости =0,01. Поскольку вычисленное значение минус 3,82 лежит значительно ниже найденного в таблице 14 значения, то нулевую гипотезу отклоняют при уровне значимости =0,01.
10 Статистические таблицы
Таблица 8 - Критерий проверки на асимметрию; значения -квантили для статистики при =0,95 и 0,99
Таблица 9 - Критерий проверки на кривизну; значения -квантили для статистики при =0,01 и 0,05 и =0,95 и 0,99
а) Кривые, выделяющие критическую область на уровне значимости =0,05
Рисунок 9 - Совместный критерий, использующий статистики и (многонаправленный критерий), лист 1
b) Кривые, выделяющие критическую область на уровне значимости =0,01
Рисунок 9. Лист 2
Таблица 10 - Значения коэффициента критерия Шапиро-Уилка для вычисления статистики критерия
Таблица 11 - Критерий Шапиро-Уилка; -квантили статистики критерия для =0,01 и 0,05
Таблица 12 - Критерий Эппса-Палли: -квантили статистики критерия для =0,90; 0,95; 0,975 и 0,99
Таблица 13 - Совместный критерий, использующий несколько независимых выборок: коэффициенты совместного критерия для преобразования в стандартизованную нормальную переменную для объема выборки
Таблица 14 - Значения -квантилей стандартного нормального закона распределения вероятностей
ПРИЛОЖЕНИЕ А (справочное)
Бланк бумаги для нормальных вероятностных графиков
Текст документа сверен по: официальное издание М.: ИПК Издательство стандартов, 2002 ГОСТ Р ИСО 5479-2002
Группа Т59
ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Статистические методы
ПРОВЕРКА ОТКЛОНЕНИЯ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ОТ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ
Statistical methods. Tests for departure of the probability distribution from the normal distribution
ОКС 03.120.30 ОКСТУ 0011 Дата введения 2002-07-01
Предисловие
1 РАЗРАБОТАН И ВНЕСЕН Техническим комитетом по стандартизации ТК 125 "Статистические методы в управлении качеством продукции";
Акционерным обществом "Научно-исследовательский центр контроля и диагностики технических систем" (АО НИЦ КД)
2 ПРИНЯТ И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Госстандарта России от 22 января 2002 г. N 25-ст
3 Настоящий стандарт представляет собой аутентичный текст международного стандарта ИСО 5479-97 "Статистическое представление данных. Проверка отклонения распределения вероятностей от нормального распределения"
4 ВВЕДЕН ВПЕРВЫЕ
Введение
Настоящий стандарт устанавливает критерии, с помощью которых можно проверить, подчиняется ли генеральная совокупность данных нормальному закону распределения. Это следующие виды критериев: графический метод, направленный критерий, многонаправленный критерий, многосторонний критерий, совместный критерий для нескольких независимых выборок.
Целью настоящего стандарта является - привести критерии, удобные для использования специалистами в промышленности для проверки на нормальность различных данных в ходе проведения измерений, контроля и испытаний.
В настоящем стандарте рассматриваются способы построения статистик и правила принятия решений для критериев проверки на нормальность.
1 Область применения
1.1 Настоящий стандарт устанавливает методы и критерии для проверки отклонения распределения вероятностей от нормального распределения при независимых наблюдениях.
1.2 Применение критерия на отклонение от нормального распределения необходимо во всех случаях, когда есть сомнение, нормально ли распределены наблюдения. В случае робастных методов (то есть таких, что результаты наблюдений незначительно изменяются, когда реальное распределение вероятностей наблюдений ненормально) критерий на отклонение от нормального распределения не применяют. Например случай, когда выборочное среднее арифметическое единственной случайной выборки, полученной в результате наблюдений, необходимо сопоставить с данным теоретическим значением с использованием -критерия.
1.3 Необязательно использовать такой критерий при каждом обращении к статистическим методам, основанным на гипотезе нормальности. Существуют случаи, когда в нормальности распределения наблюдений нет сомнения: есть теоретические (например физические) обоснования, подтверждающие гипотезу, или гипотезу считают приемлемой согласно априорной информации.
1.4 Критерии на отклонение от нормального распределения, установленные в настоящем стандарте, в основном рассчитаны на полные, несгруппированные данные.
2 Нормативные ссылки
В настоящем стандарте использована ссылка на следующий стандарт:
ГОСТ Р 50779.10-2000 (ИСО 3534.1-93) Статистические методы. Вероятность и основы статистики. Термины и определения
3 Определения и обозначения
3.1 Определения
В настоящем стандарте применяются термины с соответствующими определениями по ГОСТ Р 50779.10.
3.2 Обозначения
В настоящем стандарте использованы следующие обозначения:
4 Общие положения
4.1 Существуют различные критерии на отклонение от нормальности. В настоящем стандарте установлены графические методы, моментные критерии, регрессионные критерии и критерии характеристических функций. Критерии хи-квадрат подходят только для сгруппированных данных, и так как группирование приводит к потере информации, в данном стандарте они не рассмотрены.
4.2 Если о выборке нет дополнительной информации, рекомендуется сначала построить нормальный вероятностный график, то есть построить кумулятивную функцию распределения значений, полученных в результате наблюдений, на бумаге для нормальных вероятностных графиков с осями координат, в которых кумулятивная функция нормального распределения представлена прямой линией.
Этот метод, установленный в разделе 5, позволяет сразу видеть, близко ли полученное распределение к нормальному. Используя данную дополнительную информацию, необходимо решить, какой критерий можно применить: направленный, регрессионный, критерий характеристической функции или никакой. Такое графическое представление нельзя рассматривать как строгий критерий, но даваемая им суммарная информация является существенным дополнением к любому критерию на отклонение от нормального распределения. В случае отклонения нулевой гипотезы эта информация дает возможность определить тип альтернативной гипотезы, которая могла бы быть применима.
4.3 Критерий на отклонение от нормального распределения имеет нулевую гипотезу, состоящую в том, что выборка содержит значений независимых наблюдений, подчиняющихся одному и тому же нормальному распределению. Он заключается в вычислении функции от этих значений, называемой статистикой критерия. Нулевую гипотезу о нормальности распределения принимают или отклоняют в зависимости от того, лежит ли статистика в области ожидаемых значений, соответствующих нормальному распределению.
4.4 Критическая область критерия - это совокупность значений , ведущих к отклонению нулевой гипотезы. Уровень значимости критерия - это вероятность получения значения в критической области, когда нулевая гипотеза верна. Этот уровень дает вероятность ошибочного отклонения нулевой гипотезы (вероятность ошибки первого рода).
Граница критической области (или в случае двустороннего критерия - границы критической области) - это критическое значение(ния) статистики критерия.
4.5 Мощность критерия - это вероятность отклонения нулевой гипотезы, когда она неверна. Высокая мощность соответствует низкой вероятности ошибочного применения нулевой гипотезы (вероятности ошибки второго рода).
Мощность критерия (то есть для данной ситуации вероятность, что нулевая гипотеза о нормальности распределения будет отклонена, если она неверна) возрастает с ростом числа наблюдений. Например, отклонение от нормального распределения, которое могло быть очевидным при использовании критерия с большой выборкой, можно не обнаружить при том же значении критерия с меньшей выборкой.
4.6 Существуют два вида критериев на отклонение от нормального распределения: направленный критерий - когда форму этого отклонения устанавливают в альтернативной гипотезе и многосторонний критерий - когда форму отклонения в ней не устанавливают.
В направленном критерии критическую область определяют так, чтобы мощность критерия достигала максимального значения. В многостороннем критерии необходимо отделить критическую область так, чтобы она состояла из значений статистики критерия, лежащих далеко от ожидаемого значения.
Если имеются предположения о форме отклонения от нормального распределения, то есть рассматривается распределение, у которого асимметрия или кривизна отличны от свойственных нормальному распределению, то следует применить направленный критерий, так как его мощность больше, чем у многостороннего.
4.7 Направленный критерий является односторонним. В случае асимметрии он сдвигается к положительной или отрицательной асимметрии. Если совместно рассматривают несколько альтернативных гипотез - это критерий многонаправленный. Такие критерии используют при совместном рассмотрении ненулевых асимметрии и кривизны, отличных от свойственных нормальному распределению.
4.8 Таблицы 8-14 и рисунок 9 позволяют применять критерии для наиболее распространенных уровней значимости , то есть =0,05 и =0,01. До использования критерия следует установить уровень значимости. Критерий может привести к отклонению нулевой гипотезы при уровне значимости 0,05 и не отклонению той же гипотезы при уровне значимости 0,01.
4.9 При вычислении статистики критерия необходимо использовать не менее шести значащих цифр. Значения подсовокупностей, промежуточных результатов и вспомогательных величин следует округлять не менее чем до шести значащих цифр.
5 Графический метод
5.1 Кумулятивную функцию распределения наблюденных значений строят на бумаге для нормальных вероятностных графиков. Вертикальная ось имеет нелинейную шкалу, соответствующую площади под стандартной функцией нормального распределения и размечена значениями кумулятивной относительной частоты. Другая ось имеет линейную шкалу для упорядоченных значений . Если кумулятивная функция распределения переменной приближается к прямой линии, то распределение переменной будет нормальным.
Иногда эти оси меняют местами. Если выполнено нормирование переменной , линейную шкалу можно заменить логарифмической, квадратичной, обратной или другой шкалой.
На рисунке 1 приведен пример бумаги для нормальных вероятностных графиков. По вертикальной оси значения кумулятивной относительной частоты даны в процентах, а по горизонтальной - произвольная линейная шкала.
Рисунок 1 - Бумага для нормальных вероятностных графиков
Чистый бланк бумаги для нормальных вероятностных графиков приведен в приложении А.
Если график на этой бумаге представлен набором точек, которые рассеянны около прямой линии, то это дает первое подтверждение утверждению, что генеральная совокупность, из которой взята выборка, подчиняется нормальному закону распределения.
Этот подход важен тем, что дает наглядную информацию по типу отклонения от нормального распределения.
Если график показывает, что данные подчинены другому распределению, не имеющему отношения к нормальному (например график кумулятивной функции распределения такой, как на рисунке 5 или 6), то в некоторых случаях к нормальному распределению можно перейти с помощью специального преобразования.
Если график показывает, что данные не подчиняются простому однородному распределению, а скорее всего принадлежат смеси двух или нескольких однородных подсовокупностей (например, если график кумулятивной функции распределения такой, как на рисунке 7), то рекомендуется выявить подсовокупности и анализ каждой из них проводить отдельно.
Этот графический метод не является критерием на отклонение от нормального распределения в строгом смысле. Например, в случае малых выборок с его помощью можно получить выраженные кривые нормальных распределений, но для больших выборок кривые могут представлять ненормальные распределения.
5.2 Графическая процедура состоит в расположении наблюденных значений () в неубывающем порядке и затем в нанесении значений вероятности , рассчитанных по формуле
, (1)
на бумагу для нормальных вероятностных графиков (где - порядковый номер ; ).
Примечание 1 - Часто вместо формулы (1) применяют следующие формулы: и . Применение данных формул не рекомендуется, так как они дают плохую аппроксимацию нормальной функции распределения ожидаемой порядковой статистики .
5.3 Пример использования бумаги для нормальных вероятностных графиков показан на рисунке 2.
Рисунок 2 - График серии наблюдений на бумаге для нормальных вероятностных графиков
В таблице 1 приведены значения в порядке неубывания как результат серии из 15 независимых наблюдений при испытаниях на усталость вращающегося соединения.
Таблица 1 - Значения серии из 15 независимых наблюдений и соответствующие им значения
Примечание 2 - В таблице 1 и последующих примерах единицы величин опущены, так как это несущественно для рассматриваемых критериев в данном стандарте.
Серию точек, показанную на рисунке 2а) получают на основе значений вероятностей и . Из графика видно, что эти точки не образуют прямой линии. Если заменить на , то новый график на рисунке 2b) близок к прямой линии. Из этого следует, что гипотеза нормального распределения для логарифма наблюдений адекватна.
5.4 Рассеяние полученных экстремальных значений больше, чем у средних арифметических значений, поэтому шкала кумулятивной относительной частоты расширяется к краям. Наличие небольшого числа значений на любом конце графика функции кумулятивного распределения, которые заметно отклоняются от прямой линии, определяемой средними арифметическими значениями, нельзя рассматривать как показатель отклонения от нормального распределения.
Чем больше объем выборки, тем более надежны заключения, которые можно вывести из вида графика функции распределения.
Если график кумулятивной функции распределения наблюдаемых значений таков, что большие значения находятся ниже прямой линии, образуемой другими значениями, то такое преобразование как или приведет к графику, более соответствующему прямой линии [см. рисунки 2b) и 5].
На рисунках 3-7 верхние графики представляют собой кумулятивные функции распределения; для сравнения нижние графики представляют соответствующие функции плотности распределения.
Рисунок 3 - Кумулятивная функция распределения (вверху) и функция плотности распределения с меньшей кривизной (внизу)
Рисунок 4 - Кумулятивная функция распределения (вверху) и функция плотности распределения с большой кривизной (внизу)
Рисунок 5 - Кумулятивная функция распределения (вверху) и функция плотности распределения с положительной асимметрией (внизу)
Рисунок 6 - Кумулятивная функция распределения (вверху) и функция плотности распределения с отрицательной асимметрией (внизу)
Рисунок 7 - Функции, полученные наложением двух различных кумулятивных функций распределения (вверху) и функций плотности распределения (внизу)
Если график кумулятивной функции распределения полученных значений подобен графикам на рисунках 3 или 4, то соответствующее частотное распределение имеет меньшую кривизну (график более плоский) или большую кривизну (график более выпуклый) соответственно.
Графики кумулятивных функций распределения на рисунках 5 и 6 относятся к функциям плотности распределения с положительной и отрицательной асимметрией.
На рисунке 7 представлены кумулятивная функция распределения и функция плотности распределения, полученные от наложения двух различных функций плотности.
6 Направленные критерии
6.1 Общие положения
6.1.1 Направленные критерии относятся к характеристикам асимметрии или эксцесса распределения вероятностей наблюдений. Они основаны на фактах, что в случае нормальной случайной переменной со средним :
центральный момент третьего порядка равен
; (2)
нормированный центральный момент третьего порядка (асимметрия совокупности) равен
; (3)
нормированный центральный момент четвертого порядка (кривизна совокупности) равен
, (4)
где - момент второго порядка; (5)
- момент четвертого порядка; (6)
- асимметрия совокупности, которая может быть большей, равной или меньшей чем нуль;
- кривизна совокупности (всегда положительная);
- эксцесс совокупности.
При этом всегда выполняется неравенство .
6.1.2 В критерии на асимметричность альтернативную гипотезу можно задать в виде
, что эквивалентно [положительная асимметрия, (см. рисунок 5)] или
, что эквивалентно [отрицательная асимметрия, (см. рисунок 6)].
Распределение вероятностей с положительной асимметрией имеет повышенное рассеяние больших, а не малых значений переменных. Обратное верно для случая с отрицательной асимметрией.
6.1.3 В критерии на эксцесс совокупности альтернативную гипотезу можно задать в виде:
, что означает большую кривизну [функция плотности распределения более выпуклая (см. рисунок 4)] или
, что означает меньшую кривизну [функция плотности распределения более плоская (см. рисунок 3)].
По сравнению с нормальным распределением в распределении с большей кривизной преобладают значения переменной, близкие к среднему и к обоим краям. Обратное верно для меньшей кривизны.
6.1.4 Направленный критерий применяют только при наличии конкретной информации о том, как распределение может отличаться от нормального. Эта информация может исходить из физической природы данных или вида возмущения, которое может повлиять на процесс, генерирующий совокупность данных.
Например тот факт, что переменная неотрицательна со средним арифметическим, близким к нулю, в сравнении со значением стандартного отклонения, может быть основанием для положительной асимметрии реального распределения вероятностей. Аналогично, любое возмущение в генерирующем совокупность данных процессе, которое создает смесь нормальных совокупностей с одним средним, но разными дисперсиями, приводит к распределению вероятностей, отличному от нормального с .
6.1.5 Выбор направленного критерия следует основывать на общих соображениях о природе наблюдений или процесса, генерирующего эти наблюдения, а не на конкретной форме распределения вероятностей наблюдаемых значений. В последнем случае могут считаться объективными только результаты многостороннего критерия.
6.1.6 Если - значения случайной переменной серии из наблюдений, то среднее арифметическое или момент первого порядка рассчитывают по формуле
; (7)
моменты второго, третьего и четвертого порядков соответственно (=2, 3, 4) рассчитывают по формуле
. (8)
Статистики критерия на асимметричность и кривизну представлены в следующем виде соответственно:
(9)
и
. (10)
6.2 Направленный критерий проверки на асимметрию, использующий статистику
Этот критерий применим при (из практических соображений таблица 8 ограничена значением ).
Если альтернативная гипотеза заключается в наличии положительной асимметрии, критерий следует выполнять только при условии . Если альтернативная гипотеза заключается в наличии отрицательной асимметрии, критерий следует выполнять только при условии .
В обоих случаях решение принимают в пользу отклонения нулевой гипотезы при уровне значимости , когда статистика превышает -квантиль для .
В таблице 8 приведены значения статистики для =0,95, =0,99 и объема выборки .
Пример 1
Пример относится к применению направленного критерия с альтернативной гипотезой с использованием статистики . В таблице 2 приведена серия из 50 независимых измерений толщины заболони* деревьев, предназначенных для использования в качестве телеграфных столбов. Поскольку эта толщина неотрицательна и близка к нулю, можно предположить положительную асимметрию. Поэтому необходимо применить соответствующий направленный критерий с альтернативной гипотезой (). _________________ * Заболонь - наружный молодой, менее плотный слой древесины, лежащий непосредственно под корой.
Таблица 2 - Значения толщины заболони для =50
Из полученных в ходе наблюдений значений, приведенных в таблице 2, вычислены следующие параметры:
;
;
,
где - среднее арифметическое;
, - моменты второго и третьего порядков соответственно.
Следовательно асимметрия совокупности равна .
При уровне значимости =0,05, то есть , и объеме выборки критическое значение статистики критерия (значение -квантили) равно 0,53 (см. таблицу 8). Это значение более, чем вычисленное значение . Значит нулевая гипотеза нормального распределения не отклоняется при выбранном уровне значимости.
6.3 Направленный критерий проверки на кривизну с использованием статистики
Этот критерий применим при ; из практических соображений таблица 9 ограничена значением .
В критерии на большую кривизну альтернативная гипотеза представлена в следующем виде: . Если вычисленное значение превышает критическое значение статистики критерия (значение -квантили) при или и объеме выборки , то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например =0,05 или =0,01.
В критерии на меньшую кривизну альтернативная гипотеза представлена в следующем виде: . Если вычисленное значение менее критического значения статистики критерия (значение -квантили) при =0,05 или =0,01 и объеме выборки , то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например =0,05 или 0,01.
В таблице 9 приведены критические значения статистики критерия (значение -квантили) для =0,01, 0,05, 0,95 и 0,99 и объема выборки .
Пример 2
Пример относится к применению направленного критерия на кривизну с использованием статистики . В таблице 3 приведена серия из 50 независимых измерений. В измерительном приборе существует дефект. Некоторые из измерений могли подвергнуться влиянию этого дефекта, приводящего к вариации рассеяния этих измерений.
Из-за упомянутого дефекта можно предположить, что для распределения наблюдений необходимо использовать статистику , соответствующий направленный критерий и альтернативную гипотезу .
Таблица 3 - Серия из 50 измерений
На основе полученных значений, приведенных в таблице 3, вычислены следующие параметры:
;
;
,
где - среднее арифметическое;
, - моменты второго и четвертого порядков соответственно.
Следовательно кривизна совокупности .
При уровне значимости =0,05, то есть , и объеме выборки =50 критическое значение статистики (значение -квантили) критерия равно 3,99 (см. таблицу 9). Вычисленное значение =4,916 более этого критического значения, поэтому нулевая гипотеза отклоняется в пользу альтернативной при уровне значимости =0,05. Это значит, что распределение значений, полученных в результате измерений, искажено и имеет большую кривизну.
Кроме того, критическое значение статистики при уровне значимости =0,01 равно 4,88, поэтому отклонение нулевой гипотезы подтверждено и на этом уровне. Можно сделать вывод, что существование реального искажения данных более правдоподобно.
7 Совместный критерий, использующий статистики и (многонаправленный критерий)
Совместный критерий применим при .
7.1 Альтернативная гипотеза состоит в следующем: распределение вероятностей имеет асимметрию, отличную от нуля, и (или) кривизна отлична от кривизны, свойственной нормальному распределению (без указания направления каждого отклонения). Альтернативная гипотеза имеет один из видов:
( и (или) ).
Каждое из сочетаний , или , , или , может быть выбрано на равных основаниях. Тест многонаправленный и предназначен выявить сочетание ненулевой асимметрии и (или) кривизны .
Данный совместный критерий из-за выбора статистики нельзя считать многосторонним критерием в строгом смысле. Для направленных критериев его применение может быть оправдано только соображениями, основанными на природе наблюдений или процесса, генерирующего это наблюдение.
7.2 Статистика этого критерия образована парой значений статистик и , определенных в формулах (9) и (10) по 6.1.6. При нулевой гипотезе нормальности можно построить область вокруг точки (0; 3), в которую точка попадает с вероятностью (с осями координат , ). Кривые, ограничивающие эту область, показаны на рисунке 9а) при =0,95 и рисунке 9b) при =0,99 для различных объемов выборки .
При уровне значимости критическая область критерия образована точками, лежащими вне кривой, соответствующей объему выборки .
Пример 3
Совместный критерий, использующий статистики и , можно применить к данным примера 2.
На основе значений, приведенных в таблице 3, вычисляют выборочный центральный момент третьего порядка:
.
Отсюда .
На рисунке 9b) точка лежит далеко вне кривой, соответствующей объему выборки =50 для уровня значимости =0,01.
Поэтому нулевую гипотезу нормального распределения отклоняют на этом уровне значимости в пользу альтернативной гипотезы. Это означает, что распределение вероятностей измеренной характеристики отлично от нормального.
8 Многосторонние критерии
8.1 Общие положения
8.1.1 Многосторонние критерии применяют в том случае, если нет априорной информации о типе отклонения от нормального распределения.
8.1.2 В настоящем стандарте представлены два многосторонних критерия: Шапиро-Уилка и Эппса-Палли. Критерий Шапиро-Уилка выбирают, когда на основе исходных данных можно выбрать альтернативную гипотезу следующего вида: примерно симметричное распределение с убывающей кривизной (то есть и ) или асимметричное распределение (например ), в противном случае выбирают критерий Эппса-Палли.
8.2 Критерий Шапиро-Уилка
Этот критерий применим при . Малые выборки с при обнаружении отклонений от нормального распределения не дают достоверных результатов.
Критерий основан на регрессионном анализе порядковых статистик по их ожидаемым значениям. Это критерий типа дисперсионного анализа для полной выборки. Статистика критерия - отношение квадрата суммы линейной разности выборочных порядковых статистик к обычной оценке дисперсии.
Критерий основан на упорядоченных наблюдениях. Если серию из независимых наблюдений, расположенную в порядке неубывания, как указано в 5.3, обозначить символами , то вычисляют промежуточную сумму по формуле:
, (11)
где - индекс, имеющий значения от 1 до или от 1 до при четном и нечетном соответственно;
- коэффициент, имеющий специальные значения для объема выборки (значения приведены в таблице 10).
В этом случае статистика критерия принимает вид:
, (12)
где ;
- объем выборки;
- выборочный центральный момент второго порядка.
Если значения некоторых наблюдений равны, упорядоченная серия нумеруется с повторением равных наблюдений столько раз, сколько они возникают в исходной серии.
При уровне значимости критическая область критерия образована значениями, меньшими чем -квантиль для . Таблица 11 содержит -квантили статистики критерия для =0,01 и =0,05.
Пример 4
Пример применения критерия Шапиро-Уилка. Таблица 4 содержит упорядоченную серию из =44 независимых значений годовых осадков, собранных на метеостанции. Используя табличные значения, можно вычислить:
.
.
Таблица 4 - Ежегодные осадки, зафиксированные на метеостанции
Для облегчения вычислений в таблице приведены значения , и .
Используя значения коэффициента , взятые из таблицы 10 и воспроизведенные в таблице 4, можно вычислить значения :
.
Следовательно .
Таблица 11 дает значение -квантиля для =44 и =0,05, равное 0,944. Поскольку это значение менее значения , то нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости =0,05.
8.3 Критерий Эппса-Палли
Этот критерий применим при . Малые выборки с <8 при обнаружении отклонений от нормального распределения не дают достоверных результатов.
Многосторонний критерий с высокой мощностью при многих альтернативных гипотезах использует сумму квадратов модулей разности между характеристическими функциями на основе выборочных данных и нормального распределения с весомыми коэффициентами.
По наблюдениям (=1, 2, ..., ) вычисляют следующие параметры:
(13)
и
, (14)
где - среднее арифметическое;
- выборочный центральный момент второго порядка;
- объем выборки.
Статистику критерия Эппса-Палли вычисляют по формуле
. (15)
Порядок значений произволен, но он должен оставаться неизменным в течение всех проводимых вычислений.
Алгоритм вычисления статистики критерия Эппса-Палли представлен на рисунке 8.
Рисунок 8 - Алгоритм вычисления статистики критерия Эппса-Палли
Нулевую гипотезу отклоняют, если вычисленное значение статистики превышает -квантиль при данных уровне значимости и объеме выборки . -Квантили статистики критерия при =0,90; 0,95; 0,975 и 0,99 приведены в таблице 12.
Пример 5
Пример применения критерия Эппса-Палли. Таблица 5 содержит серию из 25 значений показателя прочности вискозной нити, измеренной при стандартных условиях в произвольных единицах. Дополнительно даны преобразованные значения , которые рассеяны около прямой линии, нанесенной на бумаге для нормальных вероятностных графиков.
Таблица 5 - Значения показателя прочности вискозной нити
На основе данных таблицы 5 вычислено значение статистики критерия =0,612 с использованием калькулятора. Используем таблицу 12 для поиска значения квантиля уровня =0,99 при =25. В таблице установлены следующие значения:
для =20 -квантиль равен 0,564;
для =30 -квантиль равен 0,569.
С помощью интерполяции значений, приведенных в таблице 12, можно оценить, что -квантиль для =25 будет равен приблизительно 0,567. Вычисленное значение превышает это критическое значение, поэтому нулевая гипотеза отклоняется при уровне значимости =0,01 для значений .
На основе данных таблицы 5 найдено =0,006. Поскольку это значение менее критического значения для =25, то нулевая гипотеза для преобразованных значений не отклоняется.
Этот пример подтверждает известный факт, что значения показателя прочности вискозной нити подчиняются логарифмически нормальному закону распределения.
Пример 6
Пример детально описывает процедуру вычисления статистики критерия в соответствии с формулой (15).
Второй столбец таблицы 6 содержит =10 значениям , для которых должен быть проведен критерий Эппса-Палли. Согласно выражениям (13) и (14), получаем =10,4 и =11,858.
Таблица 6 - Значения показателя прочности вискозной нити - вычисление статистики критерия
Двойная сумма в третьем члене выражения (15) является конечной серией () подсерий, первая из которых имеет один член, а последняя () член.
Для первой подсерии установлен индекс =2 и единственный член суммы, равный
, получен при =1. Во второй подсерии установлен индекс =3 и сумма имеет два члена, равные:
и ,
которые получены при =1 и =2. Для последней подсерии фиксирован индекс =10, и сумма имеет 9 членов, равные:
,
которые получены при =1, 2, 3, ..., 9.
Значения членов для -1=9 подсерий перечислены в столбцах 3-11 таблицы 6.
12-й столбец показывает =10 членам суммы в четвертом члене выражения (15).
Для каждого из последних 10 столбцов таблицы 6 вычислены их суммы и указаны внизу столбца.
Все 45 членов, принадлежащих сумме в третьем члене выражения (15), после суммирования дали общую сумму .
Окончательно выражение (15) подсчитано и равно
.
При =10 таблица 12 содержит значение -квантиля для =0,95, равное 0,357. Вычисленное значение =0,2914 не превышает это критическое значение, поэтому в этом примере нулевая гипотеза не отклоняется при уровне значимости =0,05.
9 Совместный критерий, использующий несколько независимых выборок
Критерий применим при нескольких выборках одинакового объема с , однако из практических соображений таблица 13 ограничена значениями коэффициентов для . Она основана на предположении, что независимые выборки взяты из одной совокупности.
Во многих случаях необходимо проверить отклонение от нормального распределения, используя несколько независимых выборок, поскольку каждая отдельная выборка слишком мала, чтобы обнаружить даже значительное отклонение от нормального распределения. В такой ситуации применяют модифицированный критерий Шапиро-Уилка.
Для последовательных выборок объемом каждая, отобранных из одной совокупности, подсчитывают значения (=1, 2, ..., ) согласно выражению (12). Для совместного критерия вычисляют промежуточные значения статистики совместного критерия по формуле
, (16)
где - вспомогательная величина совместного критерия, рассчитываемая по формуле
; (17)
, и - коэффициенты для преобразования в , приведенные в таблице 13.
В случае, если основное распределение вероятностей нормальное, переменные приблизительно следуют стандартному нормальному распределению. Среднее арифметическое значение переменной равно
, (18)
и статистикой критерия является выражение , где - число последовательных выборок.
Нулевая гипотеза отклоняется при уровне значимости , если
, (19)
где - -квантиль стандартного нормального закона распределения.
Пример 7
Пример применения совместного критерия, использующего несколько независимых выборок. Имеются 22 случайные выборки (=22), каждая объемом =20, отобранные из одной совокупности. Измеряют значение случайной переменной этих 20 объектов, которая в предположении имеет распределение, отличное от нормального. Для каждой выборки вычисляют соответствующие значения (=1, 2, ..., 22) согласно выражению (12). 22 значения приведены в таблице 7. Из таблицы 13 взяты следующие коэффициенты:
; ; .
Используя эти значения коэффициентов, вычисляют соответствующие 22 значения согласно выражениям (16) и (17); значения и приведены в таблице 7.
Таблица 7 - Значения и для 22 выборок объемом =20, взятых из одной совокупности
По таблице 11, находят значение статистики (значение -квантили) , равное 0,868 для =20 при уровне значимости =0,01.
Из таблицы 14 значение -квантили для равно
при уровне значимости =0,01.
По результатам обработки каждой из этих 22 выборок нельзя выявить отклонение от нормального распределения при данном уровне значимости =0,01, поскольку ни одно из значений не менее критического значения 0,868 и ни одно из значений не менее критического значения минус 2,326.
Совместное оценивание всех 22 выборок дает и .
Значение сравнивается со значением при уровне значимости =0,01. Поскольку вычисленное значение минус 3,82 лежит значительно ниже найденного в таблице 14 значения, то нулевую гипотезу отклоняют при уровне значимости =0,01.
10 Статистические таблицы
Таблица 8 - Критерий проверки на асимметрию; значения -квантили для статистики при =0,95 и 0,99
Таблица 9 - Критерий проверки на кривизну; значения -квантили для статистики при =0,01 и 0,05 и =0,95 и 0,99
а) Кривые, выделяющие критическую область на уровне значимости =0,05
Рисунок 9 - Совместный критерий, использующий статистики и (многонаправленный критерий), лист 1
b) Кривые, выделяющие критическую область на уровне значимости =0,01
Рисунок 9. Лист 2
Таблица 10 - Значения коэффициента критерия Шапиро-Уилка для вычисления статистики критерия
Таблица 11 - Критерий Шапиро-Уилка; -квантили статистики критерия для =0,01 и 0,05
Таблица 12 - Критерий Эппса-Палли: -квантили статистики критерия для =0,90; 0,95; 0,975 и 0,99
Таблица 13 - Совместный критерий, использующий несколько независимых выборок: коэффициенты совместного критерия для преобразования в стандартизованную нормальную переменную для объема выборки
Таблица 14 - Значения -квантилей стандартного нормального закона распределения вероятностей
ПРИЛОЖЕНИЕ А (справочное)
Бланк бумаги для нормальных вероятностных графиков
Текст документа сверен по: официальное издание М.: ИПК Издательство стандартов, 2002
Ваша оценка: |