なぜ不偏標本分散を計算するときにn-1で割るのか

投稿日:  更新日:2024/04/15

数学

B!
Chuk YongによるPixabay(https://pixabay.com/)からの画像

こんにちは, Shinoryoです.

今回は, 不偏標本分散を計算するときにn1で割っている理由を, 数学的な観点でまとめてみたいと思います.

前提

  • 平均μ, 分散σ2の母集団が存在する.
  • 母集団から, 大きさがnである標本(x1,x2,,xn)を抽出する.
  • 標本平均(sample mean)とは, 標本の平均である:
    (1)x¯=1ni=1nxi.
  • 標本分散(sample variance)とは, 標本の分散である:
    (2)s2=1ni=1n(xix¯)2.
  • 不偏標本分散(unbiased sample variance)*1とは, 標本分散をn/(n1)倍した統計量である:
    (3)u2=nn1s2=1n1i=1n(xix¯)2.

不偏標本分散を計算するときにn-1で割る理由

不偏標本分散を計算するときにnではなくn1で割る理由は, 不偏標本分散は母分散の不偏推定量であるからである.

次の2点を, 具体的に以下で説明する.

  • 不偏推定量とは何か?
  • なぜ, 不偏標本分散は母分散の不偏推定量であるのか?

不偏推定量とは何か?

推定量とは

  • 推定量(estimator): 抽出された標本から母集団の性質θ(平均, 分散など)を推定する際に用いる統計量.

推定量θ^は, 標本の抽出結果に依存する. 例えば, 母集団がx1,x2,,x100100個から成ると考える. 標本の大きさを10とした場合, 標本の抽出結果には, 次のようにさまざまなパターンが存在する.

  • x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
  • x31,x32,x33,x34,x35,x36,x37,x38,x39,x40
  • x13,x20,x29,x31,x32,x38,x58,x73,x83,x87

それぞれの抽出結果をもとに母集団の性質を推定しようとすれば, 当然その結果は異なる. このように, 推定量の値は, 標本の抽出結果に依存するのである.

後々, 推定量θ^に対する期待値・分散を考える. これは, 「推定量は標本の抽出結果に対する確率変数である」との考えが元になっている.

不偏推定量とは

  • 不偏推定量(unbiased estimator): 不偏性を持つ推定量.

母集団の性質θに対して, さまざまな推定量θ^が知られている. 推定量として好ましい性質の1つ*2に, 次のようなものがある.

  • 不偏性(unbiased): 推定量θ^の期待値が, 母集団の性質θに等しい.
    (4)θ=E[θ^].

なぜ, 不偏標本分散は母分散の不偏推定量であるのか?

標本分散は母分散の不偏推定量ではない

標本分散は母分散の不偏推定量ではない*3. 実際,

(5)E[i=1n(xiμ)2]=i=1nE[(xiμ)2]=nσ2,(6)E[(x¯μ)2]=V[x¯]=V[1ni=1nxi]=1n2i=1nV[xi]=1n2×nσ2=σ2n

であるから,

E[s2]=E[1ni=1n(xix¯)2]=1nE[i=1n{(xiμ)(x¯μ)}2]=1nE[i=1n{(xiμ)22(xiμ)(x¯μ)+(x¯μ)2}]=1nE[i=1n(xiμ)2]2nE[(x¯μ)i=1n(xiμ)]+1nE[i=1n(x¯μ)2]=1nE[i=1n(xiμ)2]E[(x¯μ)2]=1n×nσ2σ2n(7)=n1nσ2

である.

不偏標本分散は母分散の不偏推定量である

ここで,

(8)u2=nn1s2

とすれば,

(9)σ2=E[nn1s2]=E[u2]

であるから, u2は母分散の不偏推定量である.

Pythonコードで実感

次のPythonコードを用いると, 母分散の推定には標本分散よりも不偏標本分散を用いた方がよいことを実感できます.

設定例:

  • 10から10までの一様分布を用いて, 大きさ100000の母集団を作成する.
  • 母集団から大きさ10の標本抽出を1000回行い, 標本分散の平均値, 不偏標本分散の平均値を求める.

結果出力例:

母分散:33.35
標本分散の平均値:30.10 (相対誤差:9.75%)
不偏標本分散の平均値:33.44 (相対誤差:0.28%)

参考にしたサイト等

脚注

*1:単に, 不変分散(unbiased variance)とも呼ぶ.

*2:他にも, 推定量として好ましい性質として次のようなものが挙げられる.

  • 有効性(efficiency): 推定量θ^の分散が, 他の推定量の分散よりも小さい.
    (10)V[θ^]<V[θ^].
  • 一致性(consistency): 標本の大きさnが大きくなるにつれて, 推定量θ^θに収束する.

*3:ちなみに, 標本平均は母平均の不偏推定量である. 実際,

E[x¯]=E[1ni=1nxi]=1ni=1nE[xi]=1n×nμ(11)=μ

である.