线性回归的矩阵运算

岭回归的矩阵运算

普通线性回归的矩阵运算

在训练数据
(1)各列数据线性独立
(2)样本数量多于特征数量
的前提下,可以使用矩阵形式计算线性回归的系数
参考

想象中的推导过程

步骤很简单,但是其实这是一种野路子的算法,因为这一步的原始方程$Xw = Y$不是一个能直接使用的方程,这个方程可以通过坐标投影得到,只能作为一个经验公式使用,具体可以参见https://zhuanlan.zhihu.com/p/22757336。

真实的推导过程

推导之前需要了解一些关于矩阵范数的知识。

矩阵范数

矩阵的L2范数

其中$\lambda$是矩阵$A^TA$的最大特征值。

因此,对于一维矩阵(向量)$a$而言,其L2范数就是$a^Ta$,因为$a^Ta$是一个标量,所以$a^Ta$的值就是其最大特征值。

矩阵微分

当$X$,$\beta$是一维矩阵(向量)时,

矩阵微分公式

回归的目标是最小化

计算过程

对F进行求导得到:

令$\frac{\partial F}{\partial W} = 0$,有:

利用矩阵的迹的性质推导

参见斯坦福大学cs229课程笔记
依赖公式:

其中a是一个实数

也可以写成

但是这个推导过程用梯度形式更好书写,所以下面还是遵照原笔记中的梯度公式进行推导

推导过程:

直接求导

因为括号中的所有项的计算结果是一个实数,所以:

因为$trA = trA^T$,可以化简为:

再利用公式$\nabla_{A^T} trABA^TC = B^TA^TC^T + BA^TC$进行化简,令$A^T = W$,$B = B^T = X^TX$,$C = I$:

展开为:

另外根据公式$\nabla_AtrAB = B^T$以及公式$trAB = trBA$可以得到$\nabla_AtrBA = B^T$,所以上式可以继续化简为:

令梯度为0,即可得到$minF(W)$所对应的$W$:

推导完毕

岭回归的矩阵运算

岭回归的矩阵运算推导跟线性回归类似,只是多了一个范数求导的过程

目标:

计算过程

对F进行求导得到:

令$\frac{\partial F}{\partial W} = 0$,有:

推导地址

感谢您的阅读,本文由 dalalaa读书日记 版权所有。如若转载,请注明出处:dalalaa读书日记(http://yoursite.com/2018/04/05/Ridge/
线性回归中的梯度下降与一维搜索