ГОСТ Р ИСО 5479-2002 Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения.

    ГОСТ Р ИСО 5479-2002

 

      

 

 НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

 

      

     

 

 Статистические методы

 

      

 

 ПРОВЕРКА ОТКЛОНЕНИЯ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ОТ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ

 

      

 

 Statistical methods. Tests for departure of the probability distribution from the normal distribution

ОКС 03.120.30

Дата введения 2002-07-01

 

 

     

 

 Предисловие

1 ПОДГОТОВЛЕН Акционерным обществом "Научно-исследовательский центр контроля и диагностики технических систем" (АО "НИЦ КД") на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

          

2  ВНЕСЕН Техническим комитетом по стандартизации ТК 125 "Статистические методы в управлении качеством продукции"

         

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Госстандарта России от 22 января 2002 г. N 25-ст

          

4 Настоящий стандарт представляет собой аутентичный текст международного стандарта ИСО 5479-97* "Статистическое представление данных. Проверка отклонения распределения вероятностей от нормального распределения" (ISO 5479:1997 "Statistical interpretation of data - Tests for departure from the normal distribution")

 

                

5 ВВЕДЕН ВПЕРВЫЕ

           

6 ПЕРЕИЗДАНИЕ. Март 2020 г.

 

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

                   

 

 

 Введение

Настоящий стандарт устанавливает критерии, с помощью которых можно проверить, подчиняется ли генеральная совокупность данных нормальному закону распределения. Это следующие виды критериев: графический метод, направленный критерий, многонаправленный критерий, многосторонний критерий, совместный критерий для нескольких независимых выборок.

 

Целью настоящего стандарта является приведение критериев, удобных для использования специалистами в промышленности для проверки на нормальность различных данных в ходе проведения измерений, контроля и испытаний.

 

В настоящем стандарте рассматриваются способы построения статистик и правила принятия решений для критериев проверки на нормальность.

 

 

      1 Область применения

1.1 Настоящий стандарт устанавливает методы и критерии для проверки отклонения распределения вероятностей от нормального распределения при независимых наблюдениях.

 

1.2 Применение критерия на отклонение от нормального распределения необходимо во всех случаях, когда есть сомнение, нормально ли распределены наблюдения. В случае робастных методов (то есть таких, что результаты наблюдений незначительно изменяются, когда реальное распределение вероятностей наблюдений ненормально) критерий на отклонение от нормального распределения не применяют. Например, случай, когда выборочное среднее арифметическое единственной случайной выборки, полученной в результате наблюдений, необходимо сопоставить с данным теоретическим значением с использованием
-критерия.
 

1.3 Необязательно использовать такой критерий при каждом обращении к статистическим методам, основанным на гипотезе нормальности. Существуют случаи, когда в нормальности распределения наблюдений нет сомнения: есть теоретические (например физические) обоснования, подтверждающие гипотезу, или гипотезу считают приемлемой согласно априорной информации.

 

1.4 Критерии на отклонение от нормального распределения, установленные в настоящем стандарте, в основном рассчитаны на полные, несгруппированные данные.

 

 

      2 Нормативные ссылки

В настоящем стандарте использована нормативная ссылка на следующий стандарт:

 

ГОСТ Р 50779.10 (ИСО 3534.1-93) Статистические методы. Вероятность и основы статистики. Термины и определения
  
 

____________________

         
Заменен. Действует ГОСТ Р ИСО 3534-1-2019.
 

           

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

        

 

 

      3 Определения и обозначения

3.1 Определения

 

В настоящем стандарте применены термины по ГОСТ Р 50779.10.

 

3.2 Обозначения

 

В настоящем стандарте использованы следующие обозначения:

 

 

 

 

- коэффициент критерия Шапиро-Уилка;

;
 

- вспомогательные величины для критерия Эппса-Палли;

 

- эмпирическая кривизна;

 

- эмпирическая асимметрия;

 

- математическое ожидание;

 

- вспомогательная величина для совместного критерия, использующего несколько независимых выборок;

 

- число последовательных выборок;

 

- нулевая гипотеза;

 

- альтернативная гипотеза;

 
- порядковый номер значений
в выборке, упорядоченной в порядке неубывания;
 
 
- выборочный центральный момент порядка
;
 
 

- объем выборки;

 
- вероятность, связанная с
-квантилью распределения вероятностей;
 
 

- вероятность;

 
- вероятность, связанная с
;
 
 

- вспомогательная величина для критерия Шапиро-Уилка;

 

- статистика критерия;

 

- статистика критерия Эппса-Палли;

 
-
-квантиль стандартного нормального распределения;
 
 

- вспомогательная величина для совместного критерия, использующего несколько независимых выборок;

 

- статистика критерия Шапиро-Уилка;

 

- вспомогательная величина для совместного критерия, использующего несколько независимых выборок;

 

- случайная переменная;

 
- значение случайной переменной
;
 
 
-
-е значение в выборке, упорядоченной в порядке неубывания;
 
 
-
-e значение в выборке, упорядоченной в порядке неубывания;
 
 

- среднее арифметическое;

 

- уровень значимости;

 

- вероятность ошибки второго рода;

 

- кривизна совокупности;

 

- эксцесс совокупности;

 

- асимметрия совокупности;

;
;
 

- вспомогательные величины для совместного критерия, использующего несколько независимых выборок;

;
;
 

- коэффициенты совместного критерия, использующего несколько независимых выборок;

 

- математическое ожидание (центральный момент первого порядка);

 

- дисперсия совокупности (центральный момент второго порядка);

 

- центральный момент совокупности третьего порядка;

 

- центральный момент совокупности четвертого порядка;

 
- стандартное отклонение совокупности (
).
 

 

     

     

 

      4 Общие положения

4.1 Существуют различные критерии на отклонение от нормальности. В настоящем стандарте установлены графические методы, моментные критерии, регрессионные критерии и критерии характеристических функций. Критерии хи-квадрат подходят только для сгруппированных данных, и так как группирование приводит к потере информации, в данном стандарте они не рассмотрены.

 

4.2 Если о выборке нет дополнительной информации, рекомендуется сначала построить нормальный вероятностный график, то есть построить кумулятивную функцию распределения значений, полученных в результате наблюдений, на бумаге для нормальных вероятностных графиков с осями координат, в которых кумулятивная функция нормального распределения представлена прямой линией.

 

Этот метод, установленный в разделе 5, позволяет сразу видеть, близко ли полученное распределение к нормальному. Используя данную дополнительную информацию, необходимо решить, какой критерий можно применить: направленный, регрессионный, критерий характеристической функции или никакой. Такое графическое представление нельзя рассматривать как строгий критерий, но даваемая им суммарная информация является существенным дополнением к любому критерию на отклонение от нормального распределения. В случае отклонения нулевой гипотезы эта информация дает возможность определить тип альтернативной гипотезы, которая могла бы быть применима.

 

4.3 Критерий на отклонение от нормального распределения имеет нулевую гипотезу, состоящую в том, что выборка содержит
значений независимых наблюдений, подчиняющихся одному и тому же нормальному распределению. Он заключается в вычислении функции
от этих значений, называемой статистикой критерия. Нулевую гипотезу о нормальности распределения принимают или отклоняют в зависимости от того, лежит ли статистика
в области ожидаемых значений, соответствующих нормальному распределению.
 

   

4.4 Критическая область критерия - это совокупность значений
, ведущих к отклонению нулевой гипотезы. Уровень значимости критерия - это вероятность
получения значения
в критической области, когда нулевая гипотеза верна. Этот уровень дает вероятность ошибочного отклонения нулевой гипотезы (вероятность ошибки первого рода).
 

Граница критической области (или в случае двустороннего критерия - границы критической области) - это критическое значение(я) статистики критерия.

 

   

4.5 Мощность критерия - это вероятность отклонения нулевой гипотезы, когда она неверна. Высокая мощность соответствует низкой вероятности ошибочного применения нулевой гипотезы (вероятности ошибки второго рода).

 

Мощность критерия (то есть для данной ситуации вероятность, что нулевая гипотеза о нормальности распределения будет отклонена, если она неверна) возрастает с ростом числа наблюдений. Например, отклонение от нормального распределения, которое могло быть очевидным при использовании критерия с большой выборкой, можно не обнаружить при том же значении критерия с меньшей выборкой.

 

4.6 Существуют два вида критериев на отклонение от нормального распределения: направленный критерий - когда форму этого отклонения устанавливают в альтернативной гипотезе, и многосторонний критерий - когда форму отклонения в ней не устанавливают.

 

В направленном критерии критическую область определяют так, чтобы мощность критерия достигала максимального значения. В многостороннем критерии необходимо отделить критическую область так, чтобы она состояла из значений статистики критерия, лежащих далеко от ожидаемого значения.

 

Если имеются предположения о форме отклонения от нормального распределения, то есть рассматривается распределение, у которого асимметрия или кривизна отличны от свойственных нормальному распределению, то следует применить направленный критерий, так как его мощность больше, чем у многостороннего.

 

4.7 Направленный критерий является односторонним. В случае асимметрии он сдвигается к положительной или отрицательной асимметрии. Если совместно рассматривают несколько альтернативных гипотез - это критерий многонаправленный. Такие критерии используют при совместном рассмотрении ненулевых асимметрии и кривизны, отличных от свойственных нормальному распределению.

 

4.8 Таблицы 8-14 и рисунок 9 позволяют применять критерии для наиболее распространенных уровней значимости
, то есть
=0,05 и
=0,01. До использования критерия следует установить уровень значимости. Критерий может привести к отклонению нулевой гипотезы при уровне значимости 0,05 и неотклонению той же гипотезы при уровне значимости 0,01.
 

   

4.9 При вычислении статистики критерия необходимо использовать не менее шести значащих цифр. Значения подсовокупностей, промежуточных результатов и вспомогательных величин следует округлять не менее чем до шести значащих цифр.

 

      5 Графический метод

5.1 Кумулятивную функцию распределения наблюденных значений строят на бумаге для нормальных вероятностных графиков. Вертикальная ось имеет нелинейную шкалу, соответствующую площади под стандартной функцией нормального распределения, и размечена значениями кумулятивной относительной частоты. Другая ось имеет линейную шкалу для упорядоченных значений
. Если кумулятивная функция распределения переменной
приближается к прямой линии, то распределение переменной
будет нормальным.
 
Иногда эти оси меняют местами. Если выполнено нормирование переменной
, линейную шкалу можно заменить логарифмической, квадратичной, обратной или другой шкалой.
 

На рисунке 1 приведен пример бумаги для нормальных вероятностных графиков. По вертикальной оси значения кумулятивной относительной частоты даны в процентах, а по горизонтальной - произвольная линейная шкала.

               

Чистый бланк бумаги для нормальных вероятностных графиков приведен в приложении А.

 

 

 

 

 

Рисунок 1 - Бумага для нормальных вероятностных графиков

 

     Если график на этой бумаге представлен набором точек, которые рассеянны около прямой линии, то это дает первое подтверждение утверждению, что генеральная совокупность, из которой взята выборка, подчиняется нормальному закону распределения.

 

     Этот подход важен тем, что дает наглядную информацию по типу отклонения от нормального распределения.

     

Если график показывает, что данные подчинены другому распределению, не имеющему отношения к нормальному (например, график кумулятивной функции распределения такой, как на рисунке 5 или 6), то в некоторых случаях к нормальному распределению можно перейти с помощью специального преобразования.

 

Если график показывает, что данные не подчиняются простому однородному распределению, а, скорее всего, принадлежат смеси двух или нескольких однородных подсовокупностей (например, если график кумулятивной функции распределения такой, как на рисунке 7), то рекомендуется выявить подсовокупности и анализ каждой из них проводить отдельно.

 

Этот графический метод не является критерием на отклонение от нормального распределения в строгом смысле. Например, в случае малых выборок с его помощью можно получить выраженные кривые нормальных распределений, но для больших выборок кривые могут представлять ненормальные распределения.

 

5.2 Графическая процедура состоит в расположении наблюденных значений (
) в неубывающем порядке и затем в нанесении значений вероятности
, рассчитанных по формуле
 
,                                          (1)
 
на бумагу для нормальных вероятностных графиков (где
- порядковый номер
;
).
 
Примечание 1 - Часто вместо формулы (1) применяют следующие формулы:
и
. Применение данных формул не рекомендуется, так как они дают плохую аппроксимацию нормальной функции распределения ожидаемой порядковой статистики
.
 

5.3 Пример использования бумаги для нормальных вероятностных графиков показан на рисунке 2.

 

 

 

 

Рисунок 2 - График серии наблюдений на бумаге для нормальных вероятностных графиков

В таблице 1 приведены значения
в порядке неубывания как результат серии из 15 независимых наблюдений при испытаниях на усталость вращающегося соединения.
 
Таблица 1 - Значения
серии из 15 независимых наблюдений и соответствующие им значения
 

 

 

 

 

 
 
 
 

1

0,041

0,200

0,301

2

0,107

0,330

0,519

3

0,172

0,445

0,648

4

0,238

0,490

0,690

5

0,303

0,780

0,892

6

0,369

0,920

0,964

7

0,343

0,950

0,978

8

0,500

0,970

0,987

9

0,566

1,040

1,017

10

0,631

1,710

1,233

11

0,697

2,220

1,346

12

0,762

2,275

1,357

13

0,828

3,650

1,562

14

0,893

7,000

1,845

15

0,959

8,800

1,944

 

                

Примечание 2 - В таблице 1 и последующих примерах единицы величин опущены, так как это несущественно для рассматриваемых критериев в данном стандарте.

 

Серию точек, показанную на рисунке 2а), получают на основе значений вероятностей
и
. Из графика видно, что эти точки не образуют прямой линии. Если
заменить на
, то новый график на рисунке 2b) близок к прямой линии. Из этого следует, что гипотеза нормального распределения для логарифма наблюдений адекватна.
 

5.4 Рассеяние полученных экстремальных значений больше, чем у средних арифметических значений, поэтому шкала кумулятивной относительной частоты расширяется к краям. Наличие небольшого числа значений на любом конце графика функции кумулятивного распределения, которые заметно отклоняются от прямой линии, определяемой средними арифметическими значениями, нельзя рассматривать как показатель отклонения от нормального распределения.

 

Чем больше объем выборки, тем более надежны заключения, которые можно вывести из вида графика функции распределения.

Если график кумулятивной функции распределения наблюдаемых значений таков, что большие значения находятся ниже прямой линии, образуемой другими значениями, то такое преобразование как
или
приведет к графику, более соответствующему прямой линии [см. рисунки 2b) и 5].
 

На рисунках 3-7 верхние графики представляют собой кумулятивные функции распределения; для сравнения нижние графики представляют соответствующие функции плотности распределения.

 

Если график кумулятивной функции распределения полученных значений подобен графикам на рисунках 3 или 4, то соответствующее частотное распределение имеет меньшую кривизну (график более плоский) или большую кривизну (график более выпуклый) соответственно.

 

Графики кумулятивных функций распределения на рисунках 5 и 6 относятся к функциям плотности распределения с положительной и отрицательной асимметрией.

 

На рисунке 7 представлены кумулятивная функция распределения и функция плотности распределения, полученные от наложения двух различных функций плотности.

            

 

 

 

 

Рисунок 3 - Кумулятивная функция распределения (вверху) и функция плотности распределения с меньшей кривизной (внизу)

 

 

 

 

 

Рисунок 4 - Кумулятивная функция распределения (вверху) и функция плотности распределения с большой кривизной (внизу)

 

 

 

 

 

Рисунок 5 - Кумулятивная функция распределения (вверху) и функция плотности распределения с положительной асимметрией (внизу)

 

 

 

 

 

Рисунок 6 - Кумулятивная функция распределения (вверху) и функция плотности распределения с отрицательной асимметрией (внизу)

 

 

 

 

 

Рисунок 7 - Функции, полученные наложением двух различных кумулятивных функций распределения (вверху) и функций плотности распределения (внизу)

          

 

      6 Направленные критерии

6.1 Общие положения

 

6.1.1 Направленные критерии относятся к характеристикам асимметрии или эксцесса распределения вероятностей наблюдений. Они основаны на фактах, что в случае нормальной случайной переменной
со средним
:
 

- центральный момент третьего порядка равен

 

;                                                           (2)
 

- нормированный центральный момент третьего порядка (асимметрия совокупности) равен

 

;                                    (3)
 

- нормированный центральный момент четвертого порядка (кривизна совокупности) равен

 

,                                                                         (4)
 

где

 
- момент второго порядка;                           (5)
 
 
- момент четвертого порядка;                      (6)
 
- асимметрия совокупности, которая может быть большей, равной или меньшей чем нуль;
 
- кривизна совокупности (всегда положительная);
 
- эксцесс совокупности.
 
При этом всегда выполняется неравенство
.
 

6.1.2 В критерии на асимметричность альтернативную гипотезу можно задать в виде

 

, что эквивалентно
[положительная асимметрия (см. рисунок 5)], или
 

, что эквивалентно
[отрицательная асимметрия (см. рисунок 6)].
 

Распределение вероятностей с положительной асимметрией имеет повышенное рассеяние больших, а не малых значений переменных. Обратное верно для случая с отрицательной асимметрией.

 

6.1.3 В критерии на эксцесс совокупности альтернативную гипотезу можно задать в виде:

 

, что означает большую кривизну [функция плотности распределения более выпуклая (см. рисунок 4)], или
 
, что означает меньшую кривизну [функция плотности распределения более плоская (см. рисунок 3)].
 

По сравнению с нормальным распределением в распределении с большей кривизной преобладают значения переменной, близкие к среднему и к обоим краям. Обратное верно для меньшей кривизны.

 

  

6.1.4 Направленный критерий применяют только при наличии конкретной информации о том, как распределение может отличаться от нормального. Эта информация может исходить из физической природы данных или вида возмущения, которое может повлиять на процесс, генерирующий совокупность данных.

 

Например, тот факт, что переменная неотрицательна со средним арифметическим, близким к нулю, в сравнении со значением стандартного отклонения, может быть основанием для положительной асимметрии реального распределения вероятностей. Аналогично любое возмущение в генерирующем совокупность данных процессе, которое создает смесь нормальных совокупностей с одним средним, но разными дисперсиями, приводит к распределению вероятностей, отличному от нормального с
.
 

 

6.1.5 Выбор направленного критерия следует основывать на общих соображениях о природе наблюдений или процесса, генерирующего эти наблюдения, а не на конкретной форме распределения вероятностей наблюдаемых значений. В последнем случае могут считаться объективными только результаты многостороннего критерия.

 

6.1.6 Если
- значения случайной переменной
серии из
наблюдений, то среднее арифметическое или момент первого порядка рассчитывают по формуле
 
;                                                      (7)
 
моменты второго, третьего и четвертого порядков соответственно (
=2, 3, 4) рассчитывают по формуле
 
.                                             (8)
 

Статистики критерия на асимметричность и кривизну представлены в следующем виде соответственно:

 

                                               (9)
 

и

.                                                (10)
 
6.2 Направленный критерий проверки на асимметрию, использующий статистику
 

Этот критерий применим при
(из практических соображений таблица 8 ограничена значением
).
 
Если альтернативная гипотеза заключается в наличии положительной асимметрии, критерий следует выполнять только при условии
. Если альтернативная гипотеза заключается в наличии отрицательной асимметрии, критерий следует выполнять только при условии
.
 
В обоих случаях решение принимают в пользу отклонения нулевой гипотезы при уровне значимости
, когда статистика
превышает
-квантиль для
.
 
В таблице 8 приведены значения статистики
для
=0,95,
=0,99 и объема выборки
.
 

Пример 1

 

Пример относится к применению направленного критерия с альтернативной гипотезой с использованием статистики
. В таблице 2 приведена серия из 50 независимых измерений толщины заболони
деревьев, предназначенных для использования в качестве телеграфных столбов. Поскольку эта толщина неотрицательна и близка к нулю, можно предположить положительную асимметрию. Поэтому необходимо применить соответствующий направленный критерий с альтернативной гипотезой
(
).
 

_________________

Заболонь - наружный молодой, менее плотный слой древесины, лежащий непосредственно под корой.
 
Таблица 2 - Значения толщины заболони для
=50
 

 

 

 

 

 

Толщина заболони

1,25

2,05

2,60

3,10

4,00

1,35

2,10

2,60

3,15

4,00

1,40

2,15

2,70

3,15

4,05

1,50

2,15

2,75

3,20

4,05

1,55

2,15

2,75

3,30

4,10

1,60

2,20

2,80

3,45

4,20

1,75

2,25

2,95

3,50

4,45

1,75

2,35

2,95

3,50

4,50

1,85

2,40

3,00

3,80

4,70

1,95

2,55

3,05

3,90

5,10

Примечание - Значения толщины заболони расположены в порядке неубывания.

 

 

 

           

Из полученных в ходе наблюдений значений, приведенных в таблице 2, вычислены следующие параметры:

 

;
 
;
 
,
 
где
- среднее арифметическое;
 
,
- моменты второго и третьего порядков соответственно.
 
Следовательно асимметрия совокупности равна
.
 
При уровне значимости
=0,05, то есть
, и объеме выборки
критическое значение статистики критерия (значение
-квантили) равно 0,53 (см. таблицу 8). Это значение более, чем вычисленное значение
. Значит нулевая гипотеза нормального распределения не отклоняется при выбранном уровне значимости.
 
6.3 Направленный критерий проверки на кривизну с использованием статистики
 
Этот критерий применим при
; из практических соображений таблица 9 ограничена значением
.
 
В критерии на большую кривизну альтернативная гипотеза представлена в следующем виде:
. Если вычисленное значение
превышает критическое значение статистики критерия (значение
-квантили) при
или
и объеме выборки
, то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например
=0,05 или
=0,01.
 
В критерии на меньшую кривизну альтернативная гипотеза представлена в следующем виде:
. Если вычисленное значение
менее критического значения статистики критерия (значение
-квантили) при
=0,05 или
=0,01 и объеме выборки
, то нулевая гипотеза должна быть отклонена при определенном уровне значимости, например
=0,05 или 0,01.
 
В таблице 9 приведены критические значения статистики критерия (значение
-квантили)
для
=0,01, 0,05, 0,95 и 0,99 и объема выборки
.
 

Пример 2

 

Пример относится к применению направленного критерия на кривизну с использованием статистики
. В таблице 3 приведена серия из 50 независимых измерений. В измерительном приборе существует дефект. Некоторые из измерений могли подвергнуться влиянию этого дефекта, приводящего к вариации рассеяния этих измерений.
 
Из-за упомянутого дефекта можно предположить, что для распределения наблюдений необходимо использовать статистику
, соответствующий направленный критерий и альтернативную гипотезу
.
 

Таблица 3 - Серия из 50 измерений

 

 

 

 

 

Значения измерений

9,5

5,1

5,7

16,6

12,9

14,4

5,8

10,8

20,9

13,3

10,2

9,2

22,5

21,5

8,5

4,2

12,9

5,5

9,1

3,3

17,1

6,3

8,6

11,9

1,4

4,4

3,1

7,4

12,9

12,9

4,5

12,9

6,9

26,6

16,3

8,5

11,9

7,9

7,5

15,6

9,9

11,4

3,6

5,4

11,4

7,7

5,9

7,3

32,0

6,0

 

           

На основе полученных значений, приведенных в таблице 3, вычислены следующие параметры:

 

;
 
;
 
,
 
где
- среднее арифметическое;
 
,
 - моменты второго и четвертого порядков соответственно.
 
Следовательно, кривизна совокупности
.
 
При уровне значимости
=0,05, то есть
, и объеме выборки
=50 критическое значение статистики (значение
-квантили) критерия равно 3,99 (см. таблицу 9). Вычисленное значение
=4,916 более этого критического значения, поэтому нулевая гипотеза отклоняется в пользу альтернативной при уровне значимости
=0,05. Это значит, что распределение значений, полученных в результате измерений, искажено и имеет большую кривизну.
 
Кроме того, критическое значение статистики при уровне значимости
=0,01 равно 4,88, поэтому отклонение нулевой гипотезы подтверждено и на этом уровне. Можно сделать вывод, что существование реального искажения данных более правдоподобно.
 
      7 Совместный критерий, использующий статистики
и
(многонаправленный критерий)
 
Совместный критерий применим при
.
 

7.1 Альтернативная гипотеза состоит в следующем: распределение вероятностей имеет асимметрию, отличную от нуля, и (или) кривизна отлична от кривизны, свойственной нормальному распределению (без указания направления каждого отклонения). Альтернативная гипотеза имеет один из видов:

 

(
и (или)
).
 
Каждое из сочетаний
,
, или
,
, или
,
может быть выбрано на равных основаниях. Тест многонаправленный и предназначен выявить сочетание ненулевой асимметрии
и (или) кривизны
.
 

Данный совместный критерий из-за выбора статистики нельзя считать многосторонним критерием в строгом смысле. Для направленных критериев его применение может быть оправдано только соображениями, основанными на природе наблюдений или процесса, генерирующего это наблюдение.

 

7.2 Статистика этого критерия образована парой значений статистик
и
, определенных в формулах (9) и (10) по 6.1.6. При нулевой гипотезе нормальности можно построить область вокруг точки (0; 3), в которую точка
попадает с вероятностью
(с осями координат
,
). Кривые, ограничивающие эту область, показаны на рисунке 9а) при
=0,95 и рисунке 9b) при
=0,99 для различных объемов выборки
.
 
При уровне значимости
критическая область критерия образована точками, лежащими вне кривой, соответствующей объему выборки
.
 

Пример 3

 

Совместный критерий, использующий статистики
и
, можно применить к данным примера 2.
 

На основе значений, приведенных в таблице 3, вычисляют выборочный центральный момент третьего порядка:

 

.
 
Отсюда
.
 
На рисунке 9b) точка
лежит далеко вне кривой, соответствующей объему выборки
=50 для уровня значимости
=0,01.
 

Поэтому нулевую гипотезу нормального распределения отклоняют на этом уровне значимости в пользу альтернативной гипотезы. Это означает, что распределение вероятностей измеренной характеристики отлично от нормального.

 

 

      8 Многосторонние критерии

8.1 Общие положения

 

8.1.1 Многосторонние критерии применяют в том случае, если нет априорной информации о типе отклонения от нормального распределения.

 

8.1.2 В настоящем стандарте представлены два многосторонних критерия: Шапиро-Уилка и Эппса-Палли. Критерий Шапиро-Уилка выбирают, когда на основе исходных данных можно выбрать альтернативную гипотезу следующего вида: примерно симметричное распределение с убывающей кривизной (то есть
и
) или асимметричное распределение (например,
), в противном случае выбирают критерий Эппса-Палли.
 

   

8.2 Критерий Шапиро-Уилка

 

Этот критерий применим при
. Малые выборки с
при обнаружении отклонений от нормального распределения не дают достоверных результатов.
 

Критерий основан на регрессионном анализе порядковых статистик по их ожидаемым значениям. Это критерий типа дисперсионного анализа для полной выборки. Статистика критерия - отношение квадрата суммы линейной разности выборочных порядковых статистик к обычной оценке дисперсии.

 

Критерий основан на упорядоченных наблюдениях. Если серию из
независимых наблюдений, расположенную в порядке неубывания, как указано в 5.3, обозначить символами
, то вычисляют промежуточную сумму
по формуле
 
,                                                  (11)
 
где
- индекс, имеющий значения от 1 до
или от 1 до
при четном и нечетном
соответственно;
 
- коэффициент, имеющий специальные значения для объема выборки
(значения
приведены в таблице 10).
 

В этом случае статистика критерия
принимает вид
 
,                                                         (12)
 
где
;
 
- объем выборки;
 
- выборочный центральный момент второго порядка.
 

Если значения некоторых наблюдений равны, упорядоченная серия нумеруется с повторением равных наблюдений столько раз, сколько они возникают в исходной серии.

 

При уровне значимости
критическая область критерия образована значениями, меньшими чем
-квантиль для
. Таблица 11 содержит
-квантили статистики критерия
для
=0,01 и
=0,05.
 

Пример 4

 

Пример применения критерия Шапиро-Уилка. Таблица 4 содержит упорядоченную серию из
=44 независимых значений годовых осадков, собранных на метеостанции. Используя табличные значения, можно вычислить:
 
.
 

     

.
 
Для облегчения вычислений в таблице приведены значения
,
и
.
 
Используя значения коэффициента
, взятые из таблицы 10 и воспроизведенные в таблице 4, можно вычислить значения
:
 
.
 
Следовательно,
.
 
Таблица 11 дает значение
-квантиля для
=44 и
=0,05, равное 0,944. Поскольку это значение менее значения
, то нулевая гипотеза о нормальном распределении не отклоняется при уровне значимости
=0,05.
 

    

Таблица 4 - Ежегодные осадки, зафиксированные на метеостанции

 

 

 

 

 

 

 

 

 

 

 
 
 
 
 
 
 
 
 
 

1

520

1074

554

0,3872

11

711

873

162

0,1049

2

556

1056

500

0,2667

12

713

862

149

0,0943

3

561

963

402

0,2323

13

714

851

137

0,0842

4

616

952

336

0,2072

14

719

837

118

0,0745

5

635

926

291

0,1868

15

727

834

107

0,0651

 

 

 

 

 

 

 

 

 

 

6

669

922

253

0,1695

16

735

826

91

0,0560

7

686

904

218

0,1542

17

740

822

82

0,0471

8

692

900

208

0,1405

18

744

821

77

0,0383

9

704

889

185

0,1278

19

745

794

49

0,0296

10

707

879

172

0,1160

20

750

791

41

0,0211

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

776

786

10

0,0126

 

 

 

 

 

22

777

786

9

0,0042

Примечание - Упорядоченная серия из 44 наблюдений и соответствующие им значения коэффициентов критерия Шапиро-Уилка
, где
- номер индекса,
=1, 2, ..., 22.
 

 

                

8.3 Критерий Эппса-Палли

 

Этот критерий применим при
. Малые выборки с
<8 при обнаружении отклонений от нормального распределения не дают достоверных результатов.
 

Многосторонний критерий с высокой мощностью при многих альтернативных гипотезах использует сумму квадратов модулей разности между характеристическими функциями на основе выборочных данных и нормального распределения с весомыми коэффициентами.

 

По
наблюдениям
(
=1, 2, ...,
) вычисляют следующие параметры:
 
                                                      (13)
 

и

,                                            (14)
 
где
- среднее арифметическое;
 
- выборочный центральный момент второго порядка;
 
- объем выборки.
 
Статистику критерия
Эппса-Палли вычисляют по формуле
 
.     (15)
 

Порядок значений произволен, но он должен оставаться неизменным в течение всех проводимых вычислений.

 

Алгоритм вычисления статистики критерия
Эппса-Палли представлен на рисунке 8.
 

           

Нулевую гипотезу отклоняют, если вычисленное значение статистики
превышает
-квантиль при данных уровне значимости
и объеме выборки
.
-Квантили статистики критерия
при
=0,90; 0,95; 0,975 и 0,99 приведены в таблице 12.
 

 

 

 

 

Рисунок 8 - Алгоритм вычисления статистики критерия Эппса-Палли
 

Пример 5

 

Пример применения критерия Эппса-Палли. Таблица 5 содержит серию из 25 значений
показателя прочности вискозной нити, измеренной при стандартных условиях в произвольных единицах. Дополнительно даны преобразованные значения
, которые рассеяны около прямой линии, нанесенной на бумаге для нормальных вероятностных графиков.
 

Таблица 5 - Значения показателя прочности вискозной нити

 

 

 

 

Измеренные значения
 

 

Преобразованные значения
 
Измеренные значения
 

 

Преобразованные значения
 

147

1,756

99

2,021

186

1,255

156

1,681

141

1,799

176

1,447

183

1,322

160

1,643

190

1,146

174

1,477

 

 

 

 

123

1,908

153

1,708

155

1,690

162

1,623

164

1,602

167

1,568

183

1,322

179

1,398

150

1,732

78

2,100

 

 

 

 

134

1,845

173

1,491

170

1,531

168

1,556

144

1,778

 

 

 

На основе данных таблицы 5 вычислено значение статистики критерия
=0,612 с использованием калькулятора. Используем таблицу 12 для поиска значения квантиля уровня
=0,99 при
=25. В таблице установлены следующие значения:
 
- для
=20
-квантиль равен 0,564;
 
- для
=30
-квантиль равен 0,569.
 
С помощью интерполяции значений, приведенных в таблице 12, можно оценить, что
-квантиль для
=25 будет равен приблизительно 0,567. Вычисленное значение
превышает это критическое значение, поэтому нулевая гипотеза отклоняется при уровне значимости
=0,01 для значений
.
 
На основе данных таблицы 5 найдено
=0,006.
 
Поскольку это значение менее критического значения для
=25, то нулевая гипотеза для преобразованных значений
не отклоняется.
 

Этот пример подтверждает известный факт, что значения показателя прочности вискозной нити подчиняются логарифмически нормальному закону распределения.

 

Пример 6

 

Пример детально описывает процедуру вычисления статистики критерия
в соответствии с формулой (15).
 
Второй столбец таблицы 6 содержит
=10 значениям
, для которых должен быть проведен критерий Эппса-Палли. Согласно выражениям (13) и (14) получаем
=10,4 и
=11,858.
 

               

Двойная сумма в третьем члене выражения (15) является конечной серией (
) подсерий, первая из которых имеет один член, а последняя - (
) член.
 
Для первой подсерии установлен индекс
=2 и единственный член суммы, равный
 
, получен при
=1. Во второй подсерии установлен индекс
=3, и сумма имеет два члена, равные:
 
и
,
 
которые получены при
=1 и
=2. Для последней подсерии фиксирован индекс
=10, и сумма имеет девять членов, равные:
 
,
 
которые получены при
=1, 2, 3, ..., 9.
 
Таблица 6 - Значения показателя прочности вискозной нити - вычисление статистики критерия
 

 

 

 

 

 

 

 

 

 

 

 

 

 
 

 

 

=2
 
=3
 
=4
 
=5
 
=6
 
=7
 
=8
 
=9
 
=10
 

 

 
 
 
 
 
 
 
 
 
 
 
=1, ..., 10
 

1

4,9

0,9996

0,8977

0,2192

0,2083

0,1684

0,0769

0,0587

0,0304

0,0205

0,5285

2

5,0

-

0,9095

0,2304

0,2192

0,1778

0,0821

0,0629

0,0329

0,0222

0,5407

3

6,5

-

-

0,4421

0,4258

0,3633

0,1977

0,1593

0,0933

0,0673

0,7257

4

10,9

-

-

-

0,9996

0,9895

0,8723

0,8154

0,6668

0,5790

0,9947

5

11,0

-

-

-

-

0,9933

0,8853

0,8303

0,6842

0,5966

0,9924

6

11,4

-

-

-

-

-

0,9312

0,8853

0,7520

0,6668

0,9791

7

12,7

-

-

-

-

-

-

0,9933

0,9312

0,8723

0,8945

8

13,1

-

-

-

-

-

-

-

0,9664

0,9207

0,8575

9

14,0

-

-

-

-

-

-

-

-

0,9895

0,7609

10

14,5

-

-

-

-

-

-

-

-

-

0,7016

Сум-ма

104,0

0,9996

1,8072

0,8916

1,8528

2,6923

3,0455

3,8052

4,1573

4,7350

7,9757

Общая сумма

                                                     23,9865

 

                

Значения членов для
-1=9 подсерий перечислены в столбцах 3-11 таблицы 6.
 
12-й столбец показывает
=10 членам суммы в четвертом члене выражения (15).
 

Для каждого из последних 10 столбцов таблицы 6 вычислены их суммы и указаны внизу столбца.

 

Все 45 членов, принадлежащих сумме в третьем члене выражения (15), после суммирования дали общую сумму
.
 

Окончательно выражение (15) подсчитано и равно

 

.
 
При
=10 таблица 12 содержит значение
-квантиля для
=0,95, равное 0,357. Вычисленное значение
=0,2914 не превышает это критическое значение, поэтому в этом примере нулевая гипотеза не отклоняется при уровне значимости
=0,05.
 

      9 Совместный критерий, использующий несколько независимых выборок

Критерий применим при нескольких выборках одинакового объема с
, однако из практических соображений таблица 13 ограничена значениями коэффициентов для
. Она основана на предположении, что независимые выборки взяты из одной совокупности.
 

Во многих случаях необходимо проверить отклонение от нормального распределения, используя несколько независимых выборок, поскольку каждая отдельная выборка слишком мала, чтобы обнаружить даже значительное отклонение от нормального распределения. В такой ситуации применяют модифицированный критерий Шапиро-Уилка.

 

Для
последовательных выборок объемом
каждая, отобранных из одной совокупности, подсчитывают значения
(
=1, 2, ...,
) согласно выражению (12). Для совместного критерия вычисляют промежуточные значения статистики
совместного критерия по формуле
 
,                                                 (16)
 
где
- вспомогательная величина совместного критерия, рассчитываемая по формуле
 
;                                            (17)
 
,
и
 - коэффициенты для преобразования
в
, приведенные в таблице 13.
 
В случае, если основное распределение вероятностей нормальное, переменные
приблизительно следуют стандартному нормальному распределению. Среднее арифметическое значение переменной
равно
 
,                                              (18)
 
и статистикой критерия является выражение
, где
- число последовательных выборок.
 
Нулевая гипотеза отклоняется при уровне значимости
, если
 
,                                          (19)
 
где
-
-квантиль стандартного нормального закона распределения.
 

Пример 7

 

Пример применения совместного критерия, использующего несколько независимых выборок. Имеются 22 случайные выборки (
=22), каждая объемом
=20, отобранные из одной совокупности. Измеряют значение случайной переменной
этих 20 объектов, которая в предположении имеет распределение, отличное от нормального. Для каждой выборки вычисляют соответствующие значения
(
=1, 2, ..., 22) согласно выражению (12). 22 значения
приведены в таблице 7. Из таблицы 13 взяты следующие коэффициенты:
 
;
;
.
 
Используя эти значения коэффициентов, вычисляют соответствующие 22 значения
согласно выражениям (16) и (17); значения
и
приведены в таблице 7.
 
Таблица 7 - Значения
и
для 22 выборок объемом
=20, взятых из одной совокупности
 

 

 

 

 

 

 

Номер выборки

 
 

Номер выборки

 
 

1

0,9543

-0,189

12

0,9218

-1,240

2

0,9645

+0,292

13

0,9551

-0,155

3

0,9148

-1,413

14

0,9338

-0,909

4

0,8864

-2,008

15

0,9584

-0,009

5

0,9573

-0,059

16

0,9088

-1,552

6

0,9158

-1,389

17

0,9028

-1,683

7

0,9462

-0,503

18

0,8947

-1,849

8

0,9277

-1,083

19

0,9488

-0,407

9

0,9639

+0,260

20

0,9445

-0,563

10

0,9363

-0,833

21

0,9471

-0,470

11

0,9067

-1,598

22

0,9451

-0,542

 

 

 

Сумма

 

-17,902

 

                

По таблице 11, находят значение статистики (значение
-квантили)
, равное 0,868 для
=20 при уровне значимости
=0,01.
 
Из таблицы 14 значение
-квантили для
равно
 
 

 

при уровне значимости
=0,01.
 
По результатам обработки каждой из этих 22 выборок нельзя выявить отклонение от нормального распределения при данном уровне значимости
=0,01, поскольку ни одно из значений
 не менее критического значения 0,868 и ни одно из значений
не менее критического значения минус 2,326.
 
Совместное оценивание всех 22 выборок дает
и
.
 
Значение
сравнивается со значением
при уровне значимости
=0,01. Поскольку вычисленное значение минус 3,82 лежит значительно ниже найденного в таблице 14 значения, то нулевую гипотезу отклоняют при уровне значимости
=0,01.
 

      10 Статистические таблицы

 

 

 

Таблица 8 - Критерий проверки на асимметрию; значения
-квантили для статистики
при
=0,95 и 0,99
 

 

 

 

 

 

 

 
 
 
 

 

0,95

0,99

 

0,95

0,99

8

0,99

1,42

400

0,20

0,28

9

0,97

1,41

450

0,19

0,27

10

0,95

1,39

500

0,18

0,26

12

0,91

1,34

550

0,17

0,24

15

0,85

1,26

600

0,16

0,23

20

0,77

1,15

650

0,16

0,22

25

0,71

1,06

700

0,15

0,22

30

0,66

0,98

750

0,15

0,21

35

0,62

0,92

800

0,14

0,20

40

0,59

0,87

850

0,14

0,20

45

0,56

0,82

900

0,13

0,19

50

0,53

0,79

950

0,13

0,18

60

0,49

0,72

1000

0,13

0,18

70

0,46

0,67

1200

0,12

0,16

80

0,43

0,63

1400

0,11

0,15

90

0,41

0,60

1600

0,10

0,14

100

0,39

0,57

1800

0,10

0,13

125

0,35

0,51

2000

0,09

0,13

150

0,32

0,46

2500

0,08

0,11

175

0,30

0,43

3000

0,07

0,10

200

0,28

0,40

3500

0,07

0,10

250

0,25

0,36

4000

0,06

0,09

300

0,23

0,33

4500

0,06

0,08

350

0,21

0,30

5000

0,06

0,08

 

                                   

 

Таблица 9 - Критерий проверки на кривизну; значения
-квантили для статистики
при
=0,01 и 0,05 и
=0,95 и 0,99
 

 

 

 

 

 

 

 

 

 

 

n

p

n

p

 

0,01

0,05

0,95

0,99

 

0,01

0,05

0,95

0,99

8

1,31

1,46

3,70

4,53

600

2,60

2,70

3,34

3,54

9

1,35

1,53

3,86

4,82

650

2,61

2,71

3,33

3,52

10

1,39

1,56

3,95

5,00

700

2,62

2,72

3,31

3,50

12

1,46

1,64

4,05

5,20

750

2,64

2,73

3,30

3,48

 

 

 

 

 

800

 

2,65

 

2,74

 

3,29

 

3,46

 

 

 

 

 

 

 

 

 

 

 

15

1,55

1,72

4,13

5,30

850

2,66

2,74

3,28

3,45

20

1,65

1,82

4,17

5,36

900

2,66

2,75

3,28

3,43

25

1,72

1,91

4,16

5,30

950

2,67

2,76

3,27

3,42

30

1,79

1,98

4,11

5,21

1000

2,68

2,76

3,26

3,41

35

1,84

2,03

4,10

5,13

1200

2,71

2,78

3,24

3,37

 

 

 

 

 

 

 

 

 

 

40

1,89

2,07

4,05

5,04

1400

2,72

2,80

3,22

3,34

45

1,93

2,11

4,00

4,94

1600

2,74

2,81

3,21

3,32

50

1,95

2,15

3,99

4,88

1800

2,76

2,82

3,20

3,30

75

2,08

2,27

3,87

4,59

2000

2,77

2,83

3,18

3,28

100

2,18

2,35

3,77

4,39

2500

2,79

2,85

3,16

3,25

 

 

 

 

 

 

 

 

 

 

125

2,24

2,40

3,71

4,24

3000

2,81

2,86

3,15

3,22

150

2,29

2,45

3,65

4,13

3500

2,82

2,87

3,14

3,21

200

2,37

2,51

3,57

3,98

4000

2,83

2,88

3,13

3,19

250

2,42

2,55

3,52

3,87

4500

2,84

2,88

3,12

3,18

300

2,46

2,59

3,47

3,79

5000

2,85

2,89

3,12

3,17

 

 

 

 

 

 

 

 

 

 

350

2,50

2,62

3,44

3,72

 

 

 

 

 

400

2,52

2,64

3,41

3,67

 

 

 

 

 

450

2,55

2,66

3,39

3,63

 

 

 

 

 

500

2,57

2,67

3,37

3,60

 

 

 

 

 

550

2,58

2,69

3,35

3,57