2018年3月2日金曜日

推定の基礎

https://logics-of-blue.com/%E6%8E%A8%E5%AE%9A%E3%81%AE%E5%9F%BA%E7%A4%8E/

 

データから確率分布を推定するのが、統計解析の第一歩です。
確率分布を推定するためには、例えば正規分布だと、期待値と分散という2つのパラメタを推定できれば良いのでした。
期待値くらい簡単に計算できそうですが、ここではもう少しそれを深堀して、区間推定という推定方法を学びます。
手に入れたデータを使って、まだ手に入れていないデータについて議論する方法の核心に入っていきましょう。

 

目次

1.点推定
2
.母集団と標本
3
.母数と推定量、推定値
4
.点推定の課題
5
.区間推定
6
.標準誤差の復習
7
.正規分布を使った期待値の区間推定
補足:1.96という値について

 

1.点推定

区間推定に入る前に、まずは点推定と呼ばれる手法を学びます。

点推定とは、名前の通り、期待値ならば期待値を、分散ならば分散を1つ推定することです。
以降は話を簡単にするために、期待値に絞って解説をしていきます。

点推定を実践してみましょう。
データが{1,2,3,4,5}とあれば、期待値は3となります。
よって、期待値の点推定値は「3」となります。

以上で終わりです。お付き合いいただき、ありがとうございました。

……以降では、なぜ、単に期待値を計算するだけのことに「点推定」という仰々しい名前がついているのかを説明していきます。

 

2.母集団と標本

統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。
手持ちのデータのことを「標本」と呼びます。
手に入れたデータも、手に入れていないデータも、みんなまとめてしまったものを「母集団」と呼びます。

身長のデータを集めたとします。
例えば中学校の2年生のAクラス全員の身長を測ったとしましょう。その身長データが標本です。
で、日本全国、すべての中学2年生の身長を測った結果が母集団となります。

全体(母集団)の中から一部だけを抽出して標本とし、その標本から期待値だのなんだのという指標を計算しているわけです。

ただ、母集団のデータをすべて手に入れていることはふつうありません。
そこで、母集団の確率分布を推定します。
そして、まだ手に入れていないデータも、その「母集団の確率分布」に従って得られるはずだと考えます。
すると、「まだ手に入れていないデータ」であっても、「そのデータが160㎝以下となる確率は20%となるはずだ」といったように推測することができるわけです。

 

3.母数と推定値

母集団の確率分布を推定するためには、以下の2つのステップを踏みます。
1
.母集団の確率分布に正規分布を仮定する
2
.正規分布のパラメタ、すなわち期待値と分散を計算する

母集団の確率分布について、正確なところはわかりません。
正規分布に従っているかもしれないし、ポアソン分布に従っているかもしれない。
ただし、今回は身長データを扱っているという設定で進めているので、正規分布を仮定してもよさそうです。

次に、正規分布のパラメタを計算します。このパラメタが決まれば、母集団の確率分布が推定できることになります。
母集団の確率分布の「本当のパラメタ」のことを「母数」と呼びます。
でも、母数が正確にわかっていることはまずありません。母数がわからないので、標本から計算された値を使用することになります。
手持ちのデータ(標本)から推定されたパラメタのことを「推定値」と呼びます。

手持ちのデータから期待値を計算するという作業により、母数の推定値を求めていたわけです。
なので、期待値を計算する作業を、仰々しく「点推定」などと呼ぶんですね。

 

4.点推定の課題

以前にも説明しましたが、あえてもう一度同じことを書きます。
統計学的推測においては以下の前提を置きます。
「調べていない部分も、調べた部分と同じである」

なぜこのような前提を置くかというと、この前提がないとまったく先に進めないからです。
だって、手持ちのデータを使ってまだ手に入れていないデータについて議論するんですよ。
手持ちのデータとまだ手に入れていないデータとがまったく違っているならば、やりようがありません。
なので、手持ちのデータから計算された期待値と、母集団の期待値は等しいとみなし、ひいては「まだ手に入れていないデータ」に対しても、同じ期待値となるだろうと考えます。

「調べていない部分も、調べた部分と同じである」という前提を置くことは仕方がないことです。でも、「まったく同じである」と考えるのはさすがに無理があると思います。
自分の学校の身長の平均が160㎝だったからと言って、ほかのクラスでもまったく同じ160㎝にはならないでしょう。162㎝くらいかもしれません。少しくらいぶれているはずです。
そこで、区間推定の出番です。

 

5.区間推定

区間推定は文字通り、期待値などの推定値が取りうる区間を推定します。具体的には「日本全国の中学2年生の身長は、95%の確率で150㎝~170㎝の間に入る」などと推定できるようになります。
このように幅を持たせることによって「調べていない部分も、調べた部分と同じである」という相当にキツイ前提を少し和らげることができます。

6.標準誤差の復習

区間推定をする前に、補足をしておきます。
それが期待値の期待値と、期待値の分散です。

10人の身長を測るという行為を1回したとします。期待値が計算できます。
10
人の身長を測るという行為を、毎回別の人たちに対して100回したとします。
すると、期待値が100個計算できることになります。

普通は測定を100回もできません。
でも、もしできたとしたならば、計算された期待値は95%の確率で○~×㎝の間に入るはずだという区間を求めます。それが区間推定です。

期待値の期待値とは、そうやって計算された100個の期待値に対して期待値をとったものです。
期待値の分散は、100個ある期待値の分散を計算したものです。

ここで重要な性質があります。
期待値の期待値は、データの期待値と変わらないはずです。
しかし、期待値の分散は、もともとの分散よりも必ず小さくなります。

10人の身長を測定すると、背の高い人がいることもあるでしょう、背の低い人もいるでしょう。データ(身長)が期待値から離れていることが予想されます。
しかし、身長の期待値(平均値)をとると、そういった「ぶれ」がならされます。よって、期待値を100個とった時の分散は、もともとの身長データの分散よりも小さくなるのです。

それでは「期待値の分散」はいくらになるのかというと、標準誤差の2乗になります。

分散サンプルサイズ=σ2n

すなわち以下の式であらわされる標準誤差とは「期待値の標準偏差」のことです(xはデータ、μは期待値、nはサンプルサイズ、σは標準偏差です)

1n1ni=1(xiμ)2n−−−−−−−−−−−−−−−=σn−−√

 

7.正規分布を使った期待値の区間推定

区間推定をやってみましょう。母集団の確率分布に正規分布を仮定していると、比較的簡単に区間推定を実施することができます。

以下のようなデータを使います
データ={1,3,5}

このデータの期待値は3です。
普遍分散は4で、標準偏差は2となります。

サンプルサイズは3なので、期待値の分散は4÷3=1.333…となります。
標準誤差はルートをとって、およそ1.155です。

あとは、期待値3、分散1.155の正規分布の確率密度関数を使って、データがとりうる95%区間を推定すればよいことになります。
これはExcelを使っていただいても構いませんし、Rというソフトを使っていただいても構いません。
R
を使うと以下のようになります。

> qnorm(p=0.025, mean=3, sd=sqrt(4/3))
[1] 0.7368285
> qnorm(p=0.975, mean=3, sd=sqrt(4/3))
[1] 5.263171

Excelを使う場合は、NORMINVという関数を使います。
以下の数式を一行ずつコピペしてセルに貼り付けてください
=NORMINV(0.025, 3, SQRT(4/3))
=NORMINV(0.975, 3, SQRT(4/3))

なお、sqrtとはルートをとる処理を表します。

期待値が1001個あったとして、それを小さい順に並べ替えます。
そして25番目~975番目に位置するであろう値の範囲が0.7375.263となるわけです。
もちろん、期待値を1001回も計算することはできません。でも、データが得られる確率分布を仮定してしまえば、このような確率や区間を計算することができるというわけです。

なお、取得したデータが少なかった場合は、偏りがあり、正規分布をそのままでは使えないことが知られています。
そのため、正確な区間推定を行う場合は、正規分布ではなくt分布と呼ばれる確率分布を使います。
今回は割愛しますが、t分布を使った区間推定に関しては、参考文献を参照してください。

 

補足:1.96という値について

区間推定の話になると、1.96が云々と先生に言われたり、教科書に書いてあったりします。
これは、ExcelRという便利ソフトが使えなかった時代の名残なので覚えなくてもよいのですが、放置しておくのも不親切かと思いますので補足しておきます。
なお、この文章はただの補足なので、1.96という数値に見覚えがない人は飛ばしてもらって結構です。

1.96は以下のようにして計算されます(少数第三位で四捨五入すると1.96になります)。

Rの例
> qnorm(0.025, mean=0, sd=1)
[1] -1.959964
> qnorm(0.975, mean=0, sd=1)
[1] 1.959964

Excelの例
=NORMINV(0.025, 0, 1)
=NORMINV(0.975, 0, 1)

「期待値0、標準偏差1の正規分布がとる95%区間」が、-1.961.96になるということです。これを覚えておくと、手計算するときに便利なのですが、ソフトを使って計算する場合は、覚えなくても問題ありません。

なお、「期待値0、標準偏差1の正規分布」のことを標準正規分布と呼びます。
標準正規分布の区間推定くらいできてよね、っていう古き良き習慣で習う数値が1.96だということです。

なお、この1.96という数値を使うことで、期待値0以外、標準偏差1以外の正規分布でも区間推定をすることができます。
先ほどの例を使って、期待値:3、標準誤差:(4/3の平方根)の場合に、期待値の区間推定をしてみます。

Rの例
> 3 + qnorm(0.025, mean=0, sd=1)*sqrt(4/3)
[1] 0.7368285
> 3 + qnorm(0.975, mean=0, sd=1)*sqrt(4/3)
[1] 5.263171

Excelの例
=3+NORMINV(0.025,0,1)*SQRT(4/3)
=3+NORMINV(0.975,0,1)*SQRT(4/3)

95%区間は以下のようにして求められるということです。
期待値-1.96×標準偏差 ~ 期待値+1.96×標準偏差
期待値の区間推定の場合は、標準偏差が標準誤差となります。
大学のテストには出るので、余力のある方は覚えておいてください。

次の記事→統計的仮説検定の基礎

 

参考文献


平均・分散から始める一般化線形モデル入門


 
この記事を書いた管理人の執筆した本です。
この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。第5部にt分布を使った区間推定の方法も解説しています。
この本では、統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。
 

 

0 件のコメント:

コメントを投稿