こんにちは
今回は「\(\chi^2\)分布」について解説したいと思います。
\(\chi^2\)分布とは
\(\chi^2\)分布は色々な特徴のある分布ですが、一番の特徴は「標本分散の従う分布」であるということだと思います。なので標本分散から母分散を推定をする際に使います。
これだけだと意味が伝わらないと思うので以下でしっかり解説していきます。
\(\chi^2\)値
\(\chi^2\)分布の前に\(\chi^2\)について解説したいと思います。\(\chi^2\)値は
$$
\chi^2 = \frac{(n-1)s^2}{\sigma^2} (nは標本の数, 不偏分散s^2, 母分散\sigma^2)
$$
で定義され、この\(\chi^2\)が従う分布を自由度\(n-1\)の\(\chi^2\)分布と呼びます。
このように\(\chi^2\)が\(s^2\)で表されるので、結果として\(s^2\)も\(\chi^2\)分布に従います。
\(\chi^2\)分布の使用例
ポテトチップスを例に、母分散を推定してみましょう。
あるポテトチップスには平均で50枚入っているとします。10袋調べたところ平均からのばらつき(標本標準偏差)が3枚であると計算できました。(つまり一袋あたり50\(\pm\)3枚くらい入ってた)
そのポテチの会社(コイケヤ?)のHPに行ってみると一袋に入っているポテチ枚数のばらつきは1枚であることが分かりました(おそらく1000袋とか調べてると思うので母標準偏差とみなせます)。
ではこのとき、「ばらつき(標準偏差)が10枚である」は母標準偏差の推定量として適格でしょうか?
※この話はフィクションです。
「推定量として適格」とは、例えば、明らかにポテチが多く入っている袋ばかり調べて分散を求めていないか?ということです。


つまり何をしたいかというと、「一部の標本から得られた分散/標準偏差(実際に調べたポテチ枚数のばらつき)は母分散/標準偏差(全てのポテチを調べて得られた枚数のばらつき)として使ってもいいか(母分散/標準偏差に近い値か)?」ということを検討します。
本来は全世界のポテチを開けて調べないといけませんが、楽をして数袋調べてばらつきを計算するわけなので、本当にその値が正しい(母分散/標準偏差に近い値)か分かりませんよね。
話を整理してみましょう。標本の数は\(10\), 標本標準偏差\(s\)は3枚, 母標準偏差\(\sigma\)は1枚, なので標本分散\(s^2\)は9, 母分散は\(\sigma^2\)は1になります。
\(\chi^2\)を計算すると
$$
\chi^2 = \frac{(10-1)3^2}{1^2} = 27
$$
となります。
これを統計教科書の巻末によく載っている数値表でしらべます。
すると\(\chi^2\)がこの値になる確率、すなわち(母標準偏差が1枚のポテチを調べたとき)ポテチが\(\pm 3\)枚ばらつく可能性は0.2%くらいであることが分かります。
結果の考察
この0.2%という値をどう解釈すればよいでしょうか?
1000回に2回、つまり500回に1回はポテチが\(\pm 3\)枚ばらつく可能性があるといっています。
まあまあ起こりそうな感じがしすが、すべてのポテチに関していうのは厳しいかなと思います。
よって、推定量としては不適でしょう。(無意識に多く入っていそうな袋ばかり選んだ?)
この値が大きいかどうかを決める客観的判断基準となるのが、仮説検定です。
仮説検定では、ある仮説(例えばポテチは\(\pm 3\)枚ばらつく)と期待される値(HPの\(\pm 1\)枚のばらつき)の違いが偶然起こるか否かを測る指標になります。
この辺は難しいので別の日に記事を書きたいと思います。
コメント
[…] また、「【統計】χ2分布について解説してみた!!」の(chi^2)分布は「母分散」を推定するものです。 […]