2018年7月11日水曜日

正态分布的前世今生(二)

三、最小二乘法,数据分析的瑞士

第二个故事的主角是欧拉(Euler), 拉普拉斯(Lapalace),Legendre) 和高斯(Gauss),故事生的时间是十八世中到十九世初。十七、十八世是科学展的黄金年代,微分的展和牛万有引力定律的建立,直接的推了天文学和地学的迅猛展。当的大科学家都在考虑许多天文学上的问题几个典型的问题如下:

  • 土星和木星是太阳系中的大行星,由于相互吸引各自的运动轨生了影响,多大数学家,包括欧拉和拉普拉斯都在基于累的天文观测数据算土星和木星的运行道。
  • 德承担了一个政府的重要任量通巴黎的子午线度,
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

些天文学和地学的问题,无不涉及到数据的多次量,数据的算与分析;十七、十八世的天文观测,也累了大量的数据需要行分析和算。很多年以前,学者就已经经验性的认为于有差的量数据,多次量取平均是比好的理方法,然缺乏理上的论证,也不断的受到一些人的疑。取平均作一种异常直的方式,已被使用了千百年,在多年累的数据的经验中也得到一定的验证,被认为是一种良好的数据理方法。

以上涉及的问题,我直接关心的目量往往无法直接观测,但是一些相关的量是可以观测到的,而通建立数学模型,最可以解出我关心的量。些天文学的问题大体都可以转换为描述如下的问题:有我想估的量 β0,,βpβ0,,βp, 另有若干个可以量的量 x1,,xp,yx1,,xp,y, 些量之线性关系
y=β0+β1x1++βpxpy=β0+β1x1++βpxp

如何通组观测数据求解出参数β0,,βpβ0,,βp呢? 欧拉和拉普拉斯采用的都是求解线性方程的方法。

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0+β1x11++βpxp1y2=β0+β1x12++βpxp2yn=β0+β1x1n++βpxpn{y1=β0+β1x11+⋯+βpxp1y2=β0+β1x12+⋯+βpxp2⋮yn=β0+β1x1n+⋯+βpxpn

但是面的一个问题是,有 nn 组观测数据,p+1p+1 量, 如果 n>p+1n>p+1, 得到的线性矛盾方程,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通一定的数据的察,把nn线性方程分 p+1p+1,然后把每个内的方程线性求和后一个方程,从而就把nn个方程的方程归为p+1p+1个方程的方程一步解方程求解参数。些方法初看有一些道理,但是都 adhoc, 无法形成类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在的本科生看来都不困,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯些数学大牛,当也未能对这问题提出有效的解决方案。可在科学研究中,要想在念上有所突破并不容易。有效的最小二乘法是勒德在 1805 表的,基本思想就是认为测量中有差,所以所有方程的累积误

积误(∑( 观测值 - 论值 )2)2

求解出致累积误差最小的参数即可。

β^==argminβi=1ne2iargminβi=1n[yi−(β0+β1x1i++βpxpi)]2β^=argminβ∑i=1nei2=argminβ∑i=1n[yi−(β0+β1x1i+⋯+βpxpi)]2

德在文中最小二乘法的良性做了几点明:

  •  最小二乘使得差平方和最小,并在各个方程的差之建立了一种平衡,从而防止某一个极端差取得支配地位
  •  算中只要求偏后求解线性方程程明确便捷
  • 最小二乘可以出算平均计值

于最后一点,从统计学的角度来看是很重要的一个性。推理如下:假值为 θθx1,,xnx1,,xnn, 每次量的ei=xiθei=xi−θ,按最小二乘法,差累积为

L(θ)=ni=1e2i=ni=1(xiθ)2L(θ)=∑i=1nei2=∑i=1n(xi−θ)2

求解θθ 使得 L(θ)L(θ)达到最小,正好是算平均 x¯=ni=1xinx¯=∑i=1nxin

由于算平均是一个历经的方法,而以上的推理明,算平均是最小二乘的一个特例,所以从另一个角度明了最小二乘方法的良性,使我们对最小二乘法更加有信心。

最小二乘法表之后很快得到了大家的可接受,并迅速的在数据分析践中被广泛使用。不过历史上又有人把最小二乘法的功于高斯,又是怎么一回事呢。高斯在1809年也表了最小二乘法,并且声称自己已使用个方法多年。高斯明了小行星定位的数学方法,并在数据分析中使用最小二乘方法算,准确的预测了谷神星的位置。

扯了半天最小二乘法,没看出和正分布有任何关系啊,离了吧?就最小二乘法本身,然很用,不看上去更多的算是一个代数方法,然可以推出最解,于解的差有多大,无法出有效的分析,而个就是正分布粉墨登场发挥作用的地方。勒德提出的最小二乘法,确是一把在数据分析域披荆斩棘的好刀,但是刀刃是不够锋利;而把刀的打造后来至少一半功到高斯,是因高斯不独自的出了造刀的方法,而且把最小二乘把利刀的刀刃造得无比利,把最小二乘打造了一把瑞士刀。高斯拓展了最小二乘法,把正分布和最小二乘法系在一起,并使得正分布在统计误分析中确立了自己的定位,否分布就不会被称高斯分布了。 那高斯位神人是如何把正分布引入到差分析之中,打造最小二乘把瑞士刀的呢?看下一个故事

 

0 件のコメント:

コメントを投稿