2018年7月11日水曜日

正态分布的前世今生(七)

()

Everyone believes in it: experimentalists believing that it is a
mathematical theorem, mathematicians believing that it is an empirical fact.
---- Henri Poincare

f(x)=12π−−√σe(xμ)22σ2f(x)=12πσe−(x−μ)22σ2

E.T. Jaynes 在《Probability Theory, the Logic of Science》提出了两个问题:

  1. 什么正分布被如此广泛的使用?
  2. 什么正分布在践使用中非常的成功?

E.T. Jaynes 指出,正分布在践中成功的被广泛用,更多的是因分布在数学方面的具有多方面的定性些性包括:

  • 两个正分布密度的乘积还是正分布
  • 两个正分布密度的卷积还是正分布,也就是两个正分布的和是正分布
  • 分布的傅立叶变换还是正分布
  • 中心极限定理保了多个随机量的求和效致正分布
  • 分布和其它具有相同均、方差的概率分布相比,具有最大

前三个性质说明了正分布一旦形成,就容易保持定, Landon 于正分布的推也表明了, 分布可以吞噬小的干继续保持形态稳定。后两个性质则说明, 其它的概率分布在各种的操作之下容易越来越靠近正分布。 分布具有最大的性,所以任何一个指定概率分布的操作, 如果操作保持方差的大小,却减少已知的知则该操作不可避免的增加概率分布的信息 致概率分布向正分布靠近。

正由于正分布多种的定性,使得它像一个黑洞一样处于一个中心的位置, 其它的概率分布形式在各种操作之下都逐向正分布靠Jaynes 把它描述概率分布中重力(gravitating phenomenon)

践中选择使用正分布呢,正分布在自然界中的繁出只是原因之一。Jaynes 认为还有一个重要的原因 是正分布的最大。在很多候我没有任何的知知道数据的真分布是什么, 但是一个分布的均和方差往往是相对稳定的。因此我能从数据中取到的比好的知就是均和方差, 除此之外没有其它更加有用的信息量。因此按照最大的原理,我们应该选择定的知的限制下,选择熵最大的 概率分布,而就恰好是正分布。即便数据的真分布不是正分布,由于我们对分布 一无所知,如果数据不能有效提供除了均和方差之外的更多的知,那这时候正分布就是最佳的选择

当然正分布有更多令人着迷的数学性,我可以欣一下:

  • 分布 B(n,p)B(n,p)  nn很大逼近正分布 N(np,np(1−p))N(np,np(1−p))
  • 泊松分布 Poisson(λ)Poisson(λ)  λλ 逼近正分布 N(λ,λ)N(λ,λ)
  • χ2(n)χ(n)2 nn很大的候接近正分布 N(n,2n)N(n,2n)
  • tt分布在 nn 很大接近准正分布 N(0,1)N(0,1)
  • 分布的共分布是正分布
  • 几乎所有的极大似然估本量nn增大的候都近于正分布
  • Cramer 分解定理(之前介绍过):如果 X,YX,Y 是独立的随机量,且 S=X+YS=X+Y 是正分布,那么 X,YX,Y 也是正分布
  • 如果 X,YX,Y 独立且足正分布N(μ,σ2)N(μ,σ2), 那么 X+YX+YXYX−Y 独立且同分布,而正分布是唯一一性的概率分布
  • 于两个正分布X,YX,Y, 如果X,YX,Y 不相关意味着X,YX,Y独立,而正分布是唯一一性的概率分

 

0 件のコメント:

コメントを投稿