[Chi-squared test - Wikipedia](https://en.wikipedia.org/wiki/Chi-squared_test)
> カイ二乗検定(カイ二乗、χ2検定とも)とは、帰無仮説のもとで検定統計量がカイ二乗分布に従う場合に行うのが妥当な[[統計的仮説検定]]で、具体的にはピアソンのカイ二乗検定とその変種が挙げられる。ピアソンのカイ二乗検定は、分割表の1つ以上のカテゴリーにおける期待度数と観測度数の間に統計的に有意な差があるかどうかを判定するために使用される。
> この検定の標準的な応用は,観測値が相互に排他的なクラスに分類される.母集団のクラス間に差がないという帰無仮説が真であれば,オブザベーションから計算された検定統計量は,χ2度数分布に従う.検定の目的は,帰無仮説が真であると仮定して,観察された頻度がどの程度ありそうかを評価することである.
> χ2 分布に従う検定統計量は,観測値が独立であるときに発生する.また、一対の確率変数の独立性の帰無仮説を、その一対のオブザベーションに基づいて検定するχ2検定もある。
> カイ二乗検定は、検定統計量の分布が漸近的にχ2分布に近づく検定を指すことが多く、これは検定統計量の標本分布(帰無仮説が真の場合)が、標本サイズが大きくなるほど、よりカイ二乗分布に近似することを意味する。
## ピアソンのカイ二乗検定
1900年、ピアソンは近代統計学の基礎の一つとされるχ2検定に関する論文[1]を発表した[6]。この論文でピアソンは適合度の検定について検討した。
母集団からの無作為標本のn個の観測が、それぞれの観察数xi (i = 1,2,...,k) でk個の互いに排他的なクラスに分類され、帰無仮説は、観測がi番目のクラスに入る確率piを与えるとする。したがって、我々はすべてのiについて期待数mi = npiを持ち、ここで
![[Pasted image 20220327001341.png|600]]
ピアソンは、帰無仮説が正しいとする状況下で、n→∞のとき、以下に示す量の極限分布がχ2分布であることを提唱した。
![[Pasted image 20220327001402.png]]
ピアソンはまず、すべてのxiが正規分布とみなせるとして、期待数miがすべてのセルで十分に大きな既知の数である場合を扱い、nが大きくなる極限でX2は自由度k - 1のχ2分布に従うという結果に到達した。
しかし、Pearsonは次に、期待数が標本から推定しなければならないパラメータに依存する場合を考え、miを真の期待数、m′iを推定期待数という表記にして、その差は
![[Pasted image 20220327001428.png]]
は通常正であり、十分小さいので省略される。Pearsonは結論として、X′2も自由度k - 1のχ2分布として分布すると考えれば、この近似の誤差は実際の判断に影響を与えないと主張した。この結論は、実用上の論争を引き起こし、フィッシャーの1922年と1924年の論文まで20年間も決着がつかなかった[7][8]。