Проверка гипотез критерием хи-квадрат ПирсонаАвтор материала: Пятницкий А.М. (bioinformatics.ru/Data-Analysis/Pearson_chisquare_distance.html) Хи-квадрат критерий – универсальный метод проверки согласия результатов эксперимента и используемой статистической модели. Расстояние Пирсона X2Пятницкий А.М. Российский Государственный Медицинский Университет В 1900 году Карл Пирсон предложил простой, универсальный и эффективный способ проверки согласия между предсказаниями модели и опытными данными. Предложенный им “хи-квадрат критерий” – это самый важный и наиболее часто используемый статистический критерий. Большинство задач, связанных с оценкой неизвестных параметров модели и проверки согласия модели и опытных данных, можно решить с его помощью.
Пусть имеется априорная (“до опытная”) модель изучаемого объекта или процесса (в статистике говорят о “нулевой гипотезе” H0), и результаты опыта с этим объектом. Следует решить, адекватна ли модель (соответствует ли она реальности)? Не противоречат ли результаты опыта нашим представлениям о том, как устроена реальность, или иными словами - следует ли отвергнуть H0? Часто эту задачу можно свести к сравнению наблюдаемых (Oi = Observed) и ожидаемых согласно модели (Ei =Expected) средних частот появления неких событий. Считается, что наблюдаемые частоты получены в серии N независимых (!) наблюдений, производимых в постоянных (!) условиях. В результате каждого наблюдения регистрируется одно из M событий. Эти события не могут происходить одновременно (попарно несовместны) и одно из них обязательно происходит (их объединение образует достоверное событие). Совокупность всех наблюдений сводится к таблице (вектору) частот {Oi }=(O1,… OM), которая полностью описывает результаты опыта. Значение O2=4 означает, что событие номер 2 произошло 4 раза. Сумма частот O1+… OM=N. Важно различать два случая: N – фиксировано, неслучайно, N – случайная величина. При фиксированном общем числе опытов N частоты имеют полиномиальное распределение. Поясним эту общую схему простым примером.
Применение хи-квадрат критерия для проверки простых гипотез.
Пусть модель (нулевая гипотеза H0) заключается в том, что игральная кость является правильной - все грани выпадают одинаково часто с вероятностью pi=1/6, i=[1..6], M=6. Проведен опыт, который состоял в том, что кость бросили 60 раз (провели N=60 независимых испытаний). Согласно модели мы ожидаем, что все наблюдаемые частоты Oi появления 1,2,... 6 очков должны быть близки к своим средним значениям Ei=Npi=60∙(1/6)=10. Согласно H0 вектор средних частот {Ei}={Npi}=(10, 10, 10, 10, 10, 10). (Гипотезы, в которых средние частоты полностью известны до начала опыта, называются простыми.) Если бы наблюдаемый вектор {Oi} был равен (34,0,0,0,0,26) , то сразу ясно, что модель неверна – кость не может быть правильной, так как 60 раз выпадали только 1 и 6. Вероятность такого события для правильной игральной кости ничтожна: P = (2/6)60 =2.4*10-29. Однако появление столь явных расхождений между моделью и опытом исключение. Пусть вектор наблюдаемых частот {Oi} равен (5, 15, 6, 14, 4, 16). Согласуется ли это с H0? Итак, нам надо сравнить два вектора частот {Ei} и {Oi}. При этом вектор ожидаемых частот {Ei} не случаен, а вектор наблюдаемых {Oi} случаен – при следующем опыте (в новой серии из 60 бросков) он окажется другим. Полезно ввести геометрическую интерпретацию задачи и считать, что в пространстве частот (в данном случае 6 мерном) даны две точки с координатами (5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10). Достаточно ли далеко они удалены друг от друга, чтобы счесть это несовместным с H0? Иными словами нам надо:
Квадрат обычного евклидова расстояния был бы равен:
X 2Euclid = S(Oi-Ei) 2 = (5-10) 2 +(15-10) 2+ (6-10) 2+(14-10) 2+(4-10) 2+(16-10) 2
При этом поверхности X 2Euclid = const всегда являются сферами, если мы фиксируем значения Ei и меняем Oi. Карл Пирсон заметил, что использовать евклидово расстояние в пространстве частот не следует. Так, неправильно считать, что точки (O=1030 и E=1000) и (O=40 и E=10) находятся на равном расстоянии друг от друга, хотя в обоих случаях разность O-E=30. Ведь чем больше ожидаемая частота, тем большие отклонения от нее следует считать возможными. Поэтому точки (O=1030 и E=1000) должны считаться “близкими”, а точки (O=40 и E=10) “далекими” друг от друга. Можно показать, что если верна гипотеза H0 , то флуктуации частоты Oi относительно Ei имеют величину порядка квадратного корня(!) из Ei. Поэтому Пирсон предложил при вычислении расстояния возводить в квадраты не разности (Oi-Ei), а нормированные разности (Oi-Ei)/Ei1/2. Итак, вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):
X 2Pearson = S((Oi-Ei)/Ei1/2) 2 =S(Oi-Ei) 2/Ei В нашем примере: X 2Pearson = (5-10) 2/10+(15-10) 2/10+(6-10) 2/10+(14-10) 2 /10+(4-10) 2/10+(16-10) 2/10=15.4
Для правильной игральной кости все ожидаемые частоты Ei одинаковы, но обычно они различны, поэтому поверхности, на которых расстояние Пирсона постоянно (X 2Pearson =const) оказываются уже эллипсоидами, а не сферами.
Теперь после того, как выбрана формула для подсчета расстояний, необходимо выяснить, какие расстояния следует считать “не слишком большими” (согласующимися с H0). Так, например, что можно сказать по поводу вычисленного нами расстояния 15.4? В каком проценте случаев (или с какой вероятностью), проводя опыты с правильной игральной костью, мы получали бы расстояние большее, чем 15.4? Если этот процент будет мал (<0.05), то H0 надо отвергнуть. Иными словами требуется найти распределение для расстояния Пирсона. Если все ожидаемые частоты Ei не слишком малы (≥5), и верна H0 , то нормированные разности (Oi - Ei)/Ei1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (Oi - Ei)/Ei1/2 ≈N(0,1). Это, например, означает, что в 95% случаев | (Oi - Ei)/Ei1/2| < 1.96 ≈ 2 (правило “двух сигм”).
Пояснение. Число измерений Oi, попадающих в ячейку таблицы с номером i, имеет биномиальное распределение с параметрами: m=Npi=Ei , σ =(Npi (1-pi)) 1/2, где N- число измерений (N »1), pi – вероятность для одного измерения попасть в данную ячейку (напомним, что измерения независимы и производятся в постоянных условиях). Если pi мало, то: σ≈(Npi) 1/2 =Ei и биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений Ei=λ, а среднее квадратичное отклонение σ=λ1/2 = Ei1/2. Для λ≥5 пуассоновское распределение близко к нормальному N(m=Ei=λ, σ=Ei1/2=λ1/2), а нормированная величина (Oi - Ei)/Ei1/2 ≈ N(0,1). Пирсон определил случайную величину χ2n – “хи-квадрат с n степенями свободы”, как сумму квадратов n независимых стандартных нормальных с.в.:
χ2n = T12 + T22 + …+ Tn2 , где все Ti = N(0,1) - н.о.р.с.в.
Попытаемся наглядно понять смысл этой важнейшей в статистике случайной величины. Для этого на плоскости (при n=2) или в пространстве (при n=3) представим облако точек, координаты которых независимы и имеют стандартное нормальное распределение f T(x) ~ exp(-x2/2). На плоскости согласно правилу “двух сигм”, которое независимо применяется к обеим координатам, 90% (0.95*0.95≈0.90) точек заключены внутри квадрата (-2<x1<+2; -2 <x2<+2). В этом облаке случайно выбирается точка (x1=T1; x2=T2), и далее измеряется квадрат евклидова расстояния от этой точки до начала координат χ2n=2 = T12+T22. Процесс выбора точки и измерения порождает новую случайную величину – квадрат гипотенузы равный сумме квадратов случайных катетов T1 и T2. Это и есть случайная величина “хи-квадрат с двумя степенями свободы”, которая в данном случае (при n=2) имеет экспоненциальное распределение со средним значением равным 2: P( T12+T22 <a) = 1 - exp(-a/2), a≥0. При n=3 тип распределения меняется - на кривой появляется максимум. С ростом n этот максимум сдвигается вправо на величину пропорциональную n и расширяется, но медленней - со скоростью пропорциональной корню из n. Это означает, что большинство точек начинает скапливаться внутри сферического слоя, относительная толщина которого становится все меньше и меньше. Это происходит потому, что объем сферы с большим числом измерений все больше и больше сосредотачивается вблизи ее поверхности. Плотность точек в облаке уменьшается с увеличением расстояния r от центра ~exp(-r2/2) , а объем dV, заключенный в слое толщиной dr, растет: dV ~ r(n-1)dr. Поэтому плотность распределения fR(r) для расстояния r пропорциональна произведению fR(r)dr ~ exp(-r2/2) r(n-1)dr. Перейдем к распределению квадрата расстояния a= r2 : fA(a)da ~ exp(-a/2) a(n-1)/2da1/2 ~ exp(-a/2) an/2 - 1da. Но величина a это и есть χ2n , поэтому: f χ2 (a)da =Сexp(-a/2) an/2 - 1da, где константа С определяется из условия нормировки - площадь под кривой распределения от 0 до бесконечности равна 1. Отсюда видно, что при n=2 распределение оказывается экспоненциальным
f χ22 (a) =Сexp(-a/2) = 0.5exp(-a/2).
При достаточно большом числе степеней свободы n (n>30) хи-квадрат распределение приближается к нормальному: N(m = n; σ = (2n) ½). Это следствие “центральной предельной теоремы”: сумма одинаково распределенных величин имеющих конечную дисперсию приближается к нормальному закону с ростом числа слагаемых.
Практически надо запомнить, что средний квадрат расстояния равен m(χ2n)=n, а его дисперсия σ 2 (χ2n)=2n. Отсюда легко заключить какие значения хи-квадрат следует считать слишком малыми и слишком большими: большая часть распределения заключена в пределах от n-2∙(2n) ½ до n+2∙(2n) ½ .
Итак, расстояния Пирсона существенно превышающие n+2∙ (2n) ½ , следует считать неправдоподобно большими (не согласующимися с H0) . Если результат близок к n+2∙(2n) ½ , то следует воспользоваться таблицами, в которых можно точно узнать в какой доле случаев могут появляться такие и большие значения хи-квадрат.
Важно знать, как правильно выбирать значение числа степеней свободы (number degrees of freedom , сокращенно n.d.f.). Казалось естественным считать, что n просто равно числу разрядов: n=M. В своей статье Пирсон так и предположил. В примере с игральной костью это означало бы, что n=6. Однако спустя несколько лет было показано, что Пирсон ошибся. Число степеней свободы всегда меньше числа разрядов, если между случайными величинами Oi есть связи. Для примера с игральной костью сумма Oi равна 60, и независимо менять можно лишь 5 частот, так что правильное значение n=6-1=5. Для этого значения n получаем n+2∙(2n) ½ =5+2∙(10) ½ =11.3. Так как 15.4>11.3, то гипотезу H0 - игральная кость правильная, следует отвергнуть.
После выяснения ошибки, существовавшие таблицы χ2 пришлось дополнить, так как исходно в них не было случая n=1, так как наименьшее число разрядов =2. Теперь же оказалось, что могут быть случаи, когда расстояние Пирсона имеет распределение χ2n=1.
Пример. При 100 бросаниях монеты число гербов равно O1= 65, а решек O2= 35. Число разрядов M=2. Если монета симметрична, то ожидаемые частоты E1=50, E2=50. X 2Pearson = S(Oi-Ei) 2/Ei = (65-50) 2/50 + (35-50) 2/50 = 2*225/50 = 9. Полученное значение следует сравнивать с теми, которые может принимать случайная величина χ2n=1 , определенная как квадрат стандартной нормальной величины χ2n=1 =T12 ≥ 9 ó T1≥3 или T1≤-3. Вероятность такого события весьма мала P(χ2n=1≥9) = 0.006. Поэтому монету нельзя считать симметричной: H0 следует отвергнуть. То, что число степеней свободы не может быть равно числу разрядов видно из того, что сумма наблюдаемых частот всегда равна сумме ожидаемых, например O1+O2 =65+35 = E1+E2=50+50=100. Поэтому случайные точки с координатами O1 и O2 располагаются на прямой: O1+O2 =E1+E2 =100 и расстояние до центра оказывается меньше, чем, если бы этого ограничения не было, и они располагались на всей плоскости. Действительно для двух независимые случайных величин с математическими ожиданиями E1=50, E2=50, сумма их реализаций не должна быть всегда равной 100 – допустимыми были бы, например, значения O1=60, O2=55.
Пояснение. Сравним результат, критерия Пирсона при M=2 с тем, что дает формула Муавра Лапласа при оценке случайных колебаний частоты появления события ν=K/N имеющего вероятность p в серии N независимых испытаний Бернулли (K-число успехов): χ2n=1=S (Oi-Ei) 2/Ei = (O1-E1) 2/E1 + (O2-E2)2/E2 = (Nν-Np)2/(Np) + (N(1-ν)-N(1-p))2/(N(1-p))= =(Nν-Np)2(1/p + 1/(1-p))/N=(Nν-Np)2/(Np(1-p))=( (K-Np)/(Npq) ½ ) 2= T2 Величина T=(K-Np)/(Npq) ½ = (K-m(K))/σ(K) ≈N(0,1) при σ(K)=(Npq) ½≥3. Мы видим, что в этом случае результат Пирсона в точности совпадает с тем, что дает применение нормальной аппроксимации для биномиального распределения. До сих пор мы рассматривали простые гипотезы, для которых ожидаемые средние частоты Ei полностью известны заранее. О том, как правильно выбирать число степеней свободы для сложных гипотез см. ниже.
Применение хи-квадрат критерия для проверки сложных гипотез
В примерах с правильной игральной костью и монетой ожидаемые частоты можно было определить до(!) проведения опыта. Подобные гипотезы называются “простыми”. На практике чаще встречаются “сложные гипотезы”. При этом для того, чтобы найти ожидаемые частоты Ei надо предварительно оценить одну или несколько величин (параметры модели), и сделать это можно только, воспользовавшись данными опыта. В результате для “сложных гипотез” ожидаемые частоты Ei оказываются зависящими от наблюдаемых частот Oi и потому сами становятся случайными величинами, меняющимися в зависимости от результатов опыта. В процессе подбора параметров расстояние Пирсона уменьшается – параметры подбираются так, чтобы улучшить согласие модели и опыта. Поэтому число степеней свободы должно уменьшаться.
Как оценить параметры модели? Есть много разных способов оценки – “метод максимального правдоподобия”, “метод моментов”, “метод подстановки”. Однако можно не привлекать никаких дополнительных средств и найти оценки параметров минимизируя расстояние Пирсона. В докомпьютерную эпоху такой подход использовался редко: при ручных расчетах он неудобен и, как правило, не поддается аналитическому решению. При расчетах на компьютере численная минимизация обычно легко осуществляется, а преимуществом такого способа является его универсальность. Итак, согласно “методу минимизации хи-квадрат”, мы подбираем значения неизвестных параметров так, чтобы расстояние Пирсона стало наименьшим. (Кстати, изучая изменения этого расстояния при небольших смещениях относительно найденного минимума можно оценить меру точности оценки: построить доверительные интервалы.) После того как параметры и само это минимальное расстояние найдено опять требуется ответить на вопрос достаточно ли оно мало.
Общая последовательность действий такова:
P(χ2n > χ2крит )=1-α, где α – “уровень значимости” или ”размер критерия” или “величина ошибки первого рода” (типичное значение α=0.05).
Обычно число степеней свободы n вычисляют по формуле n = (число разрядов) – 1 – (число оцениваемых параметров)
Если X2> χ2крит, то гипотеза H0 отвергается, в противном случае принимается. В α∙100% случаев (то есть достаточно редко) такой способ проверки H0 приведет к “ошибке первого рода”: гипотеза H0 будет отвергнута ошибочно.
Пример. При исследовании 10 серий из 100 семян подсчитывалось число зараженных мухой-зеленоглазкой. Получены данные: Oi =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21); Можно ли считать эти данные однородными? Здесь неизвестен заранее вектор ожидаемых частот. Если данные однородны и получены для биномиального распределения, то неизвестен один параметр доля p зараженных семян. Заметим, что в исходной таблице фактически имеется не 10 а 20 частот, удовлетворяющих 10 связям: 16+84=100, … 21+79=100. X2 = (16-100p) 2/100p +(84-100(1-p)) 2/(100(1-p))+…+ (21-100p) 2/100p +(79-100(1-p)) 2/(100(1-p)) Объединяя слагаемые в пары (как в примере с монетой), получаем ту форму записи критерия Пирсона, которую обычно пишут сразу: X2 = (16-100p) 2/(100p(1-p))+…+ (21-100p) 2/(100p(1-p)). Теперь если в качестве метода оценки р использовать минимум расстояния Пирсона, то необходимо найти такое p, при котором X2=min. (Модель старается по возможности “подстроиться” под данные эксперимента.)
Критерий Пирсона - это наиболее универсальный из всех используемых в статистике. Его можно применять к одномерным и многомерным данным, количественным и качественным признакам. Однако именно в силу универсальности следует быть осторожным, чтобы не совершить ошибки.
Важные моменты1.Выбор разрядов.
Оценка параметров. Использование “самодельных”, неэффективных методов оценки может привести к завышенным значениям расстояния Пирсона.
Выбор правильного числа степеней свободы. Если оценки параметров делаются не по частотам, а непосредственно по данным (например, в качестве оценки среднего берется среднее арифметическое), то точное число степеней свободы n неизвестно. Известно лишь, что оно удовлетворяет неравенству: (число разрядов – 1 – число оцениваемых параметров) < n < (число разрядов – 1) Поэтому необходимо сравнить X2 с критическими значениями χ2крит вычисленными во всем этом диапазоне n.
Как интерпретировать неправдоподобно малые значения хи-квадрат? Следует ли считать монету симметричной, если при 10000 бросаний, она 5000 раз выпала гербом? Ранее многие статистики считали, что H0 при этом также следует отвергнуть. Теперь предлагается другой подход: принять H0 , но подвергнуть данные и методику их анализа дополнительной проверке. Есть две возможности: либо слишком малое расстояние Пирсона означает, что увеличение числа параметров модели не сопровождалось должным уменьшением числа степеней свободы, или сами данные были сфальсифицированы (возможно ненамеренно подогнаны под ожидаемый результат).
Пример. Два исследователя А и B подсчитывали долю рецессивных гомозигот aa во втором поколении при моногибридном скрещивании AA * aa. Согласно законам Менделя эта доля равна 0.25. Каждый исследователь провел по 5 опытов, и в каждом опыте изучалось 100 организмов. Результаты А: 25, 24, 26, 25, 24. Вывод исследователя: закон Менделя справедлив(?). Результаты B: 29, 21, 23, 30, 19. Вывод исследователя: закон Менделя не справедлив(?). Однако закон Менделя имеет статистическую природу, и количественный анализ результатов меняет выводы на обратные! Объединив пять опытов в один, мы приходим к хи-квадрат распределению с 5 степенями свободы (проверяется простая гипотеза): X2A = ((25-25) 2+(24-25) 2+(26-25)2+(25-25)2+(24-25)2)/(100∙0.25∙0.75)=0.16 X2B = ((29-25) 2+(21-25) 2+(23-25)2+(30-25)2+(19-25)2)/(100∙0.25∙0.75)=5.17 Среднее значение m[χ2n=5]=5, среднеквадратичное отклонение σ[χ2n=5]=(2∙5) 1/2 =3.2. Поэтому без обращения к таблицам ясно, что значение X2B типично, а значение X2A неправдоподобно мало. Согласно таблицам P(χ2n=5<0.16)<0.0001. Этот пример – адаптированный вариант реального случая, произошедшего в 1930-е годы (см. работу Колмогорова “Об еще одном доказательстве законов Менделя”). Любопытно, что исследователь A был сторонником генетики, а исследователь B – ее противником.
Путаница в обозначениях. Следует различать расстояние Пирсона, которое при своем вычислении требует дополнительных соглашений, от математического понятия случайной величины хи-квадрат. Расстояние Пирсона при определенных условиях имеет распределение близкое к хи-квадрат с n степенями свободы. Поэтому желательно НЕ обозначать расстояние Пирсона символом χ2n , а использовать похожее, но другое обозначение X2..
Критерий Пирсона не всесилен. Существует бесконечное множество альтернатив для H0, которые он не в состоянии учесть. Пусть вы проверяете гипотезу о том, что признак имел равномерное распределение, у вас имеется 10 разрядов и вектор наблюдаемых частот равен (130,125,121,118,116,115,114,113,111,110). Критерий Пирсона не cможет “заметить” того, что частоты монотонно уменьшаются и H0 не будет отклонена. Если бы его дополнить критерием серий то да! Ваша оценка: |