2018年7月11日水曜日

正态分布的前世今生(一)

,要有正分布,就有了正分布。
神看正分布是好的,就随机差就服从了正分布。

-数理统计

一、正分布

础统计学的同学大都分布非常熟悉。型的分布曲线不但形状雅,其密度函数写成数学表达式
f(x)=12π−−√σe(xμ)22σ2f(x)=12πσe−(x−μ)22σ2
也非常具有数学的美感。其准化后的概率密度函数
f(x)=12π−−√ex22f(x)=12πe−x22
更加的简洁漂亮,两个最重要的数学常量 π,eπ,e 都出在了公式之中。在我个人的美之中,它也属于 top-N 的最美的数学公式之一,如果有人我数理统计领域哪个公式最能人感到上帝的存在,那我一定投正分布的票。因为这个分布戴着神秘的面,在自然界中无不在,你在芜杂的数据背后看到隐隐的秩序。

分布又通常被称高斯分布,在科学域,冠名那是一个很高
的荣誉。去德国的兄弟们还发现,德国的钢镚10克的纸币上都留有高斯的像和正密度曲线。正分布被冠名高斯分布,我也容易认为是高斯发现了正分布,其不然,不高斯于正分布的史地位的确立是起到了决定性的作用。

线虽然看上去很美,却不是一拍袋就能想到的。我在本科学数理统计候,本一上来介分布就出密度分布函数,却从来不个分布函数是通什么原理推出来的。所以我一直搞不明白数学家当年是怎么找到个概率分布曲线的,又是怎么发现误差服从个奇妙的分布的。直到我研究生的候我的导师给我介希儒院士的《数理统计简史》,看了之后才了解了正分布曲线发现到被人视进而广泛用,也是经过了几百年的史。

分布的史是很精彩的,我过讲几个故事来揭开她的神秘面

二、邂逅,正线的首次发现
第一个故事和概率展密切相关,主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)

拉普拉斯是个大科学家,被称法国的牛;棣莫弗名气可能不算很大,不大家应该应该都熟悉个名字,因在高中数学学复数的候都学棣莫弗定(cosθ+isinθ)n=cos(nθ)+isin(nθ)(cosθ+isinθ)n=cos(nθ)+isin(nθ)

古典概率论发源于博,惠更斯、帕斯卡、费马努力都是古典概率的奠基人,他那会研究的概率问题大都来自桌上,最早的概率论问题徒梅累在1654年向帕斯卡提出的如何分金的问题统计学中的体均之所以被称期望(Expectation), 就是源自惠更斯、帕斯卡些人研究平均情况下一个徒在桌上可以期望自己得多少

有一天一个哥,也是个徒,向棣莫弗提了一个和博相关
的一个问题A,B 两人在赌场博,AB各自的获胜概率p,q=1pp,q=1−p, n 局,若 A 的局数 X>npX>np, A 给赌场 XnpX−np 元,否B 给赌场 npXnp−X 元。 问赌场挣钱的期望是多少。

问题并不复 上是一个二分布,最后求出的理论结果是
2npqb(n,p,np)2npqb(n,p,np)
其中 b(n,p,i)=(ni)piqnib(n,p,i)=(ni)piqn−i 是常的二概率。 但是具体的 nn, 要把个理论结实际计算出数值结果可不容易, 其中的二公式中有合数.驱动 De Moivre找近似算的方法算。

与此相关的另一个问题,是遵从二分布的随机 XB(n,p)XB(n,p), X 落在二分布中心点一定范的概率 Pd=P(|Xnp|≤d)Pd=P(|X−np|≤d)

p=1/2 的情形, 棣莫弗 做了一些算并得到了一些近似果,但是漂亮,幸运的是 棣莫弗 Stirling 在同一个代, 而且二人之系,Stirling 公式是在数学分析中必学的一个重要公式(Stirling 公式的形式其是棣莫弗最先发现的,但是 Stirling 了公式)

n!2πn−−−√(ne)nn!2πn(ne)n

1733 年,棣莫弗很快利用 Stirling 公式算并取得了重要的展。考 n 是偶数的情形,令二概率
b(i)=b(n,12,i)=(ni)(12)nb(i)=b(n,12,i)=(ni)(12)n
Stirling 公式做一些简单算容易得到,

b(n2)2πn−−−b(n2)2πn
b(n2+d)b(n2)e2d2nb(n2+d)b(n2)e−2d2n

于是有
b(n2+d)22πn−−−√e2d2nb(n2+d)22πne−2d2n

使用上式的果,并在二概率累加求和的程中近似的使用定分代替求和,很容易就能得到

P(|Xn12|≤cn−−√)2c2c12π−−√ex2/2dxP(|Xn−12|≤cn)∫−2c2c12πe−x2/2dx

看,正分布的密度函数的形式在分公式中出了!也就是我在数理统计课本上学到的二分布的极限分布是正分布。

以上只是讨论 p=1/2p=1/2 的情形, 棣莫弗也 p1/2p≠1/2做了一些算,后来拉普拉斯 p1/2p≠1/2 的情况做了更多的分析,并把二分布的正近似推广到了任意 pp 的情况。 是第一次正密度函数被数学家勾画出来,而且是以二分布的极限分布的形式被推出来的。 熟悉基概率统计的同学都知道果其叫棣莫弗-拉普拉斯中心极限定理。

[De Moivre-Laplace 中心极限定理]
随机 Xn(n=1,2,)Xn(n=1,2,) 服从参数 pp 的二分布,则对任意的 xx, 恒有
limnP{Xnnpnp(1p)−−−−−−−−x}=x12π−−√et22dtlimn→∞P{Xn−npnp(1−p)≤x}=∫−∞x12πe−t22dt

在大学学数理统计候,学程都是先学了正分布,然后才学中心极限定理。而学到正分布的候,直接就描述了其概率密度的数学形式,然数学上很漂亮,但是当很容易困惑数学家是如何凭空就找到个分布的。希孺的《数理统计史》之后,我才明白正分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题程很少是按照我数学本的安排序推的,代的数学本都是按照数学内在的逻辑进组织编排的,逻辑结构上严谨优美,却把数学问题研究的史痕迹抹得一干二DNA 双螺旋构的发现者之一 Waston 在他的名著《DNA 双螺旋》序言中"科学的发现很少会像所想象的一,按照直接了当合乎逻辑的方式行的。"

棣莫弗 出他的发现40年(大 1770), 拉普拉斯建立了中心极限定理一般的形式,中心极限定理后又被其它数学家推广到了其它任意分布的情形,而不限于二分布。后统计学家发现,一系列的重要统计量,在本量 N 于无候, 其极限分布都有正的形式, 构成了数理统计中大本理的基

棣莫弗在二分布的算中瞥了正线的模,不他并没有能展现这个曲线的美妙之。棣莫弗的个工作当并没有引起人的重,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考其工作的意 分布(也没有被命名分布) 在当也只是以极限分布的形式出,并没有在统计学,尤其是差分析中发挥作用。也就是正分布最没有被冠名 棣莫弗分布的重要原因。 那高斯做了工作统计学家把正分布的这顶桂冠戴在了他的上呢?先得从最小二乘法的起。下回分解:-)

 

0 件のコメント:

コメントを投稿