ここでは統計学の難所、確率密度関数について説明します。
確率密度関数の意味と使い方をぜひ学んでください。
目次
1.確率密度関数とは何か
2.なぜ確率密度関数が必要か
補足:確率と確率密度
3.正規分布
4.正規分布の使い方
5.正規分布がある時とない時でのデータ分析の方法の比較
6.「○○分布に従うと仮定する」ことの意義と弊害
補足:中心極限定理
1.確率密度関数とは何か
確率密度関数とは、確率、あるいは確率密度を計算する関数のことです。
例えば、0.2×aで確率が求まるとします。aが3なら、確率は0.6です。このとき「a =3になる確率は0.6」と解釈します。
「0.2×a」でも、「a÷3+0.01」でもなんでもよいです。確率を計算する関数が確率密度関数です。
ただし、確率分布は、合計値が1になる必要があります。
なので、例えば確率密度関数が「0.2×a」なのだとしたら、xのとりうる値は{0.5,1.5,3}だけ、というように制限をつけることになります。
確率密度関数が「0.2×a」、aのとりうる範囲が{0.5,1.5,3}とすると、確率分布は以下のようになります
{P(0.5),P(1.5),P(3)}={0.1,0.3,0.6}
このとき、以下のように解釈します。
a =0.5になる確率は0.1
a =1.5になる確率は0.3
a =3 になる確率は0.6
なお、aのとりうる値を制限するのではなく、aをいくら動かしても、合計値が常に1となるよう、式を工夫することもあります。
関連する記事
2.なぜ確率密度関数が必要か
確率密度関数を使う理由は、ただ一つ。解析が楽になるからです。
確率密度関数を使わずに確率分布を求めようと思ったならば、データから度数分布を直接推定することになります。
度数分布を求めるためには、多くのデータが必要となります。
例えば、身長のデータから度数分布を求めるとします。
まずは、身長をいくつかのカテゴリに分けます。
100㎝~120㎝:カテゴリA
120㎝~140㎝:カテゴリB
140㎝~160㎝:カテゴリC
160㎝~180㎝:カテゴリD
180㎝~200㎝:カテゴリE
で、カテゴリAが4人、Bが7人……と求めていきます。
このとき、調査した人数が5人とか6人では、正しい度数分布が得られることはありません。カテゴリAに入る人が0人ということだってあるでしょうから。
度数分布をデータから直接求めるのにはデータが多く必要になります。
一方、確率密度関数を使うと、計算をするだけで確率分布が求められます。
心配しなくても、計算をするのはコンピュータの仕事です。
なので、確率密度関数を使うと、確率分布の推定が飛躍的に楽になり、ひいてはデータの解析がとても楽になるのです。
補足:確率と確率密度
この記事では意識して分けることはしていませんが、確率密度と確率はその意味合いが異なります。
ここでは補足として、両者の比較と説明をします。
確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためです。
例えば、身長160㎝だと主張する人がいたとします。
しかし、お医者さんがちゃんと測りなおすと、161.21㎝となりました。
しかし、さらに電子顕微鏡を使って再度測定すると、161.20987㎝となりました。
さらに100年後、さらに技術が進み、スーパー電子顕微鏡で測定すると161.2098695730㎝となり……。
このように、測定の精度を細かくすると、「ピッタリ160㎝」の身長など存在しないことが分かります。
すると、「身長が160㎝ちょうどになる確率は0」となるわけです。
もちろん、身長が161㎝ちょうどになる確率も0であり、170㎝ちょうどになる確率も0です。
このように、数量データだと、常に確率が0となってしまいます。
そこで、確率密度が使われます。
確率密度は、それ自体では確率と異なります。
ただし、160㎝~161㎝の間のすべての確率密度を足し合わせると「身長が160㎝~161㎝になる確率」が計算できます。
なお「すべての確率密度を足し合わせる」という行為を専門的に言うと「確率密度を、身長160㎝~161㎝の間で積分する」という呼び方になります。
よって、確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためということになります。
※なお、この一連の記事の中では、確率密度を求める関数ではなく、確率が直接求まる関数であっても、「確率密度関数」と表記することにします。
本によっては「確率関数」と表記されることもあるのですが、ここでは統一しておきました。
3.正規分布
正規分布はもっとも有名な確率分布の一つです。正規分布は誤差分布とも呼ばれます。「正しい値」があって、そこから誤差によってぶれた結果がデータとして得られることを想定しています。
本来は正規分布の詳細についても解説すべきですが、ここでは割愛します。詳しくは参考文献をご参照ください。ここでは、正規分布の使い方、すなわちデータと正規分布の確率密度関数を使って、確率分布を計算する方法だけを解説します。
正規分布の確率密度関数は以下のようになります。
なお、μは平均値(期待値)であり、σ²は分散、xはデータの値です。
f(x)=12πσ2−−−−√e{−(x−μ)22σ2}
少々複雑な数式ですが、ここで理解してほしいことは1点だけです。
正規分布の確率密度関数を使うと、「平均値(期待値)、分散」が求まれば、確率密度がすくに計算でき、ひいては確率分布も求められるということです。
4.正規分布の使い方
統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。
「手持ちのデータを分析する」ことによって、データから確率分布を計算します。
正規分布の場合だと、期待値と分散の2つが定まれば、確率密度関数が決まります。
期待値と分散の計算方法は記述統計の基礎で解説した通りです。なお、分散は、不偏分散を使うのが普通です。
「まだ手に入れていないデータについて議論する」ために、「手持ちのデータは、先ほど計算された確率分布から得られた」と考えます。そして「まだ手に入れていないデータも、同じ確率分布から得られるはずだ」と考えます。
すなわち、先ほど推定された正規分布から、「まだ手に入れていないデータ」も得られるはずだと考えるわけです。
やってみましょう。
データから期待値と(不偏)分散を求めてしまって、先ほどの式に代入してしまえば準備完了です。例えば、期待値が3で、不偏分散が4と、データから計算できたとしましょう。
μ=3、σ²=4を代入するとこうなります。
f(x)=12π×4−−−−−√e{−(x−3)22×4}
あとはデータxを変化させて足し上げる(積分する)と、その区間にデータが入る確率が計算できます。
例えばデータを「-∞~0」まで変化させて、その間の確率密度をすべて足し上げる(積分する)と、データxが「-∞~0」の間に入る確率が計算できます。言い換えると、データが0以下の値になる確率が求まるというわけです。
Rという統計分析のフリーソフトを使えば簡単に計算できます(Rの使い方についてはこちらのページをご参照ください)。期待値3、分散4(すなわち標準偏差(sd)が2)の正規分布において、データが0以下になる確率は以下の通りです。
> pnorm(q=0, mean=3, sd=2)
[1] 0.0668072
およそ6.7%となりました。
まだ手に入れていないデータに関しても、そいつが0以下となるのは6.7%になるのだろうと推測できるというわけです。
統計学の目標クリアです。
ちなみにExcel2016では「=NORM.DIST(0,3,2,TRUE)」とすれば同じ値になります。
古いExcelでも「=NORMDIST(0,3,2,TRUE)」とすればOKのはずです。こちらも分散ではなく標準偏差を引数に入れていることに注意してください。
昔は統計学の教科書の後ろのほうに表が載っていて、その表を読んで確率を計算していました。しかし、21世紀にもなってそんな表を読み込む(あるいは読むための勉強をする)のは時間の無駄なのでお勧めしません。
是非、RやExcelなどを使ってパソコンで計算してください。
5.正規分布がある時とない時でのデータ分析の方法の比較
例えば、身長のデータから確率分布を求めるとします。
まずは、身長をいくつかのカテゴリに分けます。
100㎝~120㎝:カテゴリA
120㎝~140㎝:カテゴリB
140㎝~160㎝:カテゴリC
160㎝~180㎝:カテゴリD
180㎝~200㎝:カテゴリE
正規分布がないときは、100人くらいを調査して、カテゴリAが4人、Bが7人……と求めていきます。
このとき、調査した人数が5人とか6人では、正しい度数分布が得られることはありません。カテゴリAに入る人が0人ということだってあるでしょうから。
一方、正規分布があれば、わざわざ数え上げる必要はありません。
身長の期待値と不偏分散をパソコン(RやExcelなど)で計算し、またまたコンピュータを使って確率を計算するだけとなります。
ほとんどをコンピュータ任せにできて、大変簡便です。
また、次のページ以降で解説する、区間推定や統計的仮設検定を行うのもとても楽になります。
統計学の教科書にいつも(「漫画でわかる統計学」でさえ!)正規分布の複雑な数式が出てくる理由は一つだけ。
データ分析が簡単になるからです。
6.「○○分布に従うと仮定する」ことの意義と弊害
データ分析を行う際、あるいは解析手法の勉強をするとほぼ必ずと言ってよいほど「データは正規分布に従うと仮定する」など「○○分布に従うと仮定する」という文言が出てきます。
ある特定の確率分布(正規分布など)に従うと仮定しておけば、先ほど見てきたように、全部コンピュータ任せで簡単に解析できて便利です。解析の手順も整備されていて、マニュアルに従っていればある程度の解析ができてしまうほどです。
なので、正規分布を含めて「○○分布に従うと仮定する」という仮定を置くことは、統計学においてはよくあることです。楽になるので大変ありがたい仮定です。
しかし、何も考えずに「楽だから」という理由だけで正規分布を仮定するのは危険です。
正規分布に従っていないデータを解析している可能性だってあるからです。
確率分布には、正規分布以外にも、ポアソン分布や二項分布など様々な確率分布があります。データが得られるプロセスもやはり様々あり、正規分布だけですべてに対応することができないからです。
そのため、データをよく見て、その都度適切な確率分布を選ぶ必要があります。
今回の一連の連載記事では紹介しませんが、そのうちは一般化線形モデルなど、正規分布以外の確率分布も扱うことのできる手法についても学んでいただければと思います。
補足:中心極限定理
正規分布は、統計学の教科書にほぼ必ず出てきます。
正規分布が重要である理由は「中心極限定理」と呼ばれる定理にあります。
中心極限定理は以下のことを示します。
「母集団がどのような確率分布でも、そこからサンプリングした標本の期待値、あるいは合計値は、サンプルサイズを大きくすれば、正規分布に近づく」
例えばサイコロを少し多めに1万回振ったとします。そして、1万回のサイコロの目の期待値を計算します。
すると、このサイコロの目の期待値は、正規分布に従います。
期待値あるいは合計値を計算すると、正規分布は知らず知らずのうちに現れます。
正規分布の取り扱い方を学んでいると、解析にとても便利だということです。
次の記事→推定の基礎
参考文献
|
0 件のコメント:
コメントを投稿