こんにちは
今回は「不偏分散はなぜ\(n-1\)で割るのか」について解説したいと思います。
不偏分散とは
$$
s^2=\frac{1}{n-1}\{\left(X_1-\bar{X}\right)^2+\left(X_2-\bar{X}\right)^2+\cdots+\left(X_n-\bar{X}\right)^2\}
$$
で定義されている量です。\(X_1\)から\(X_n\)という\(n\)個のサンプルがあるので、\(n\)で割りそうなものですが、不偏分散は\(n-1\)で割っています。
今回はこの”\(n-1\)”で割るという操作の理由を解説していきたいと思います。
不偏分散はなぜ\(n-1\)で割るのか
結論からいってしまうと、\(s^2\)の「不偏性」という条件をクリアするため\(n-1\)で割ります。
以下で解説していきます。
標本
たとえば、ある高校の生徒の身長の平均や、分散(平均からの散らばり具合)を調べたいとします。
この場合、全員の身長を調べればいいですが、一人ひとり聞いて回っては大変でしょう。
なので母集団(全生徒の身長)からいくつかの標本(何人かの身長)を取ってきて「仮に全員調べたらこれくらいの値になるだろう」と推測する、ということをします(このように真の値を集団のある一部分から推定したものを推定量と呼びます)。
標本分散
それでは標本から分散を作ってみましょう。
普通に考えて分散は
$$
S^2=\frac{1}{n}\{(X_1-\bar{X})^2+(X_2-\bar{X})^2+\cdots+(X_n-\bar{X})^2\}
$$
となりそうです。
推定量の基準
一見\(S^2\)は本当の値\(\sigma^2\)(生徒の身長を全部調べて出した分散)と同程度だと見積もってもおかしくないように思えます。
しかし、実は\(S^2\)では\(\sigma^2\)を過小評価してしまっているのです。
これは推定量の基準、すなわち(母集団の値を見積もるために)標本の値が満たすべき条件「不偏性」をクリアしていないためです。
それではこの「不偏性」とはどのようなものなのか見ていきましょう。
不偏性
不偏性とは以下で定義されます。
$$
E(\hat{\theta}) = \theta
$$
ここで、\(\hat{\theta}\)は\(\theta\)の推定量、\(\theta\)は母数(母分散、母平均など)です。
なので、関係
$$
E(s^2) = \sigma^2
$$
を満たす分散\(s^2\)を不偏分散といいます。
それではこの式の意味を解説していきたいと思います。
\(E(s^2) = \sigma^2\)の意味
当たり前ですが標本分散\(s^2\)は母分散\(\sigma^2\)に近いほど良い値です。
しかし、標本分散はいつも同じ値(母分散)が得られるとは限りません。
一回目の身長の調査と二回目の身長の調査で分散に違いが出るのは当然です。
なので調査ごとに同じ値(母分散)が出ることをあきらめて、だいたい同じくらいの値が出れば良しとします。
だいたい同じくらいの値が出るとはどういうことでしょうか。これは以下の図を見たほうが分かりやすいと思います。

上の図のように左が不偏ではない分散の分布、右が不偏分散の分布を示しています。
左の方は分散の平均が\(\sigma^2\)よりも右側に来てしまっています。
これでは調査を行ったとき、\(\sigma^2\)とは違った値が得られてしまい、間違った母分散を推定してしまいそうです。(\(\sigma^2\)よりも右側の値が得られそうです。)
一方、右の場合は全体として\(\sigma^2\)の周りに値が集中しています。
なので、調査を行ったとき、\(\sigma^2\)と同じような値が得られ、正確に母分散を推定できそうです。
つまり平均を取ったとき、母分散\(\sigma^2\)になればよい推定ができるということを言っています。(このことを数式で表すと\(E(s^2)=\sigma^2\))
よって、右の不偏分散はよい推定量といえます。
\(E(s^2)=\sigma^2\)の証明
それでは、\(E(s^2)=\sigma^2\)の重要性がわかったので、この式の導出をしてみましょう。
まず、\(Y_i = X_i – \mu\)と置きます。(\(X_i:i番目の標本, \mu:母平均\))
この\(Y_i\)を使うと、不偏分散\(s^2\)は
\begin{eqnarray}
s^2 &=& \frac{1}{n-1}\sum \left(X_i – \bar{X}\right)^2\\
&=& \frac{1}{n-1}\sum \left(Y_i – \bar{Y}\right)^2\\
&=& \frac{1}{n-1}\sum \left(Y_i^2 -2Y_i\bar{Y} + \bar{Y}^2 \right)\\
&=& \frac{1}{n-1}\left(\sum Y_i^2 -n\bar{Y}^2 \right)
\end{eqnarray}
と変形できます。(\(\bar{Y} = \bar{X} – \mu , \sum Y_i = n\bar{Y}\)を使った)
なので、この期待値は
$$
E(s^2) = \frac{1}{n-1} \left(E\left(\sum Y_i^2\right) -n E\left(\bar{Y}^2\right)\right)
$$
となります。
\(E\left(\sum Y_i^2\right)\)の計算
\(Y_i\)の期待値は
$$
E(Y_i) = E(X_i – \mu) = E(X_i) – E(\mu) = \mu – \mu = 0
$$
となります。
次に、\(Y_i^2\)の期待値は
\begin{eqnarray}
E(Y_i^2) &=& E(X_i^2 – 2X_i\mu + \mu^2)\\
&=& E(X_i^2) – 2\mu E(X_i) + E(\mu^2)\\
&=& \sigma^2+ \mu^2 -2\mu^2 + \mu^2 (\sigma^2 = E(X_i^2) – E(X_i)^2)\\
&=& \sigma^2
\end{eqnarray}
となります。
なので、\(\sum Y_i^2\)の期待値は
\begin{eqnarray}
E\left(\sum Y_i^2\right) &=& E\left(Y_1^2 + Y_2^2 + \cdots + Y_n^2 \right)\\
&=& E(Y_1^2) + E(Y_2^2) + \cdots + E(Y_n^2)\\
&=& n\sigma^2
\end{eqnarray}
となります。
\(E\left(\bar{Y}^2\right)\)の計算
\(Y_i\)の標本平均\(\bar{Y} = \frac{1}{n}\sum Y_i\)の期待値は
\begin{eqnarray}
E(\bar{Y}) &=& \frac{1}{n}E(Y_1 + Y_2 + \cdots + Y_n)\\
&=& 0
\end{eqnarray}
となります。
ところで、\(\bar{Y}\)の分散は
$$
V(\bar{Y}) = E(\bar{Y}^2) – E(\bar{Y})^2 = E(\bar{Y}^2)
$$
と書けるので、分散を求めます。
$$
V(\bar{Y}) = V\left(\frac{1}{n}\sum Y_i\right) = \frac{1}{n^2}V(Y_1 + Y_2 + \cdots + Y_n)
$$
であり、\(V(Y_i) = E(Y_i^2) – E(Y_i)^2 = E(Y_i^2) = \sigma^2\)なので、
$$
V(\bar{Y}) = \frac{1}{n^2}V(Y_1 + Y_2 + \cdots + Y_n) = \frac{\sigma^2}{n}
$$
となります。よって
$$
E\left(\bar{Y}^2\right) = V(\bar{Y}) = \frac{\sigma^2}{n}
$$
となります。
最終的に、
\begin{eqnarray}
E(s^2) &=& \frac{1}{n-1} \left(E\left(\sum Y_i^2\right) -n E\left(\bar{Y}^2\right)\right)\\
&=& \frac{1}{n-1}(n\sigma^2 – n\frac{\sigma^2}{n})\\
&=& \sigma^2
\end{eqnarray}
となり、\(s^2\)の不偏性が証明できました!!