我们先回顾一下,我们定义观测结果y和预测结果y’之间的差别为Rss:
%5E2%3D+%5Csum_%7Bi%3D1%7D%5E%7Bn%7D(%7By_i-h(x_i)%7D+)%5E2+%3D+(y-h(X))%5ET*(y-h(X)))
设若参数的矩阵为

,则
%3D%5Ctheta*X)
那么
)%5ET*(y-h(X))+%3D++(y-X*%5Ctheta)%5ET*(y-X*%5Ctheta)+)
按照我们的定义,这个Rss的意思是y和y’之间的差,那么当Rss无限趋近于0的时候,则y≈y’,即我们求得的预测结果就等于实际结果。
于是,令Rss等于某一极小值

,则
%5ET*(y-X*%5Ctheta)+%3D%3D%5Cdelta+)
对参数

求导,得:
%7D(y-X*%5Ctheta)%5ET*(y-X*%5Ctheta)%3D%3D+2X%5ET*(y-X*%5Ctheta)%3D%3D0)
展开,得

进而就可以得到
%5E%7B-1%7D*X%5ET*y)
于是我们就得到正规方程了。
再讲一个推导方式:
我们可以用矩阵乘法:

两边同时乘以


然后再乘以
%5E%7B-1%7D)
%5E%7B-1%7DX%5ETY%3D(X%5ETX)%5E%7B-1%7DX%5ETX%5Ctheta+)
就得到
%5E%7B-1%7DX%5ETY)
……不过这第二种方法是在知道了正规方程是什么以后再推导的。虽然看起来很快,然而并没有告诉你为什么。
0 件のコメント:
コメントを投稿