2018年6月10日日曜日

正规方程推导过程

我们先回顾一下,我们定义观测结果y和预测结果y’之间的差别为Rss:
Rss = \sum_{i=1}^{n}({y_i-y_i'} )^2= \sum_{i=1}^{n}({y_i-h(x_i)} )^2 = (y-h(X))^T*(y-h(X))
设若参数的矩阵为\theta,则h(X)=\theta*X
那么Rss  = (y-h(X))^T*(y-h(X)) =  (y-X*\theta)^T*(y-X*\theta)
按照我们的定义,这个Rss的意思是y和y’之间的差,那么当Rss无限趋近于0的时候,则y≈y’,即我们求得的预测结果就等于实际结果。
于是,令Rss等于某一极小值\delta ,则(y-X*\theta)^T*(y-X*\theta) ==\delta
对参数\theta求导,得:
\frac{d}{d(\theta)}(y-X*\theta)^T*(y-X*\theta)== 2X^T*(y-X*\theta)==0
展开,得 2X^T*y==2*X^T*X*\theta
进而就可以得到\theta ==(X^T*X)^{-1}*X^T*y
于是我们就得到正规方程了。

再讲一个推导方式:
我们可以用矩阵乘法:
Y=X\theta
两边同时乘以X^T
X^TY=X^TX\theta
然后再乘以(X^TX)^{-1}
(X^TX)^{-1}X^TY=(X^TX)^{-1}X^TX\theta
就得到\theta = (X^TX)^{-1}X^TY
……不过这第二种方法是在知道了正规方程是什么以后再推导的。虽然看起来很快,然而并没有告诉你为什么。

0 件のコメント:

コメントを投稿