
线性回归的矩阵运算
岭回归的矩阵运算
普通线性回归的矩阵运算
在训练数据
(1)各列数据线性独立
(2)样本数量多于特征数量
的前提下,可以使用矩阵形式计算线性回归的系数
参考
想象中的推导过程
步骤很简单,但是其实这是一种野路子的算法,因为这一步的原始方程$Xw = Y$不是一个能直接使用的方程,这个方程可以通过坐标投影得到,只能作为一个经验公式使用,具体可以参见https://zhuanlan.zhihu.com/p/22757336。
真实的推导过程
推导之前需要了解一些关于矩阵范数的知识。
矩阵范数
矩阵的L2范数
其中$\lambda$是矩阵$A^TA$的最大特征值。
因此,对于一维矩阵(向量)$a$而言,其L2范数就是$a^Ta$,因为$a^Ta$是一个标量,所以$a^Ta$的值就是其最大特征值。
矩阵微分
当$X$,$\beta$是一维矩阵(向量)时,
回归的目标是最小化
计算过程
对F进行求导得到:
令$\frac{\partial F}{\partial W} = 0$,有:
利用矩阵的迹的性质推导
参见斯坦福大学cs229课程笔记
依赖公式:
其中a是一个实数
也可以写成
但是这个推导过程用梯度形式更好书写,所以下面还是遵照原笔记中的梯度公式进行推导
推导过程:
直接求导
因为括号中的所有项的计算结果是一个实数,所以:
因为$trA = trA^T$,可以化简为:
再利用公式$\nabla_{A^T} trABA^TC = B^TA^TC^T + BA^TC$进行化简,令$A^T = W$,$B = B^T = X^TX$,$C = I$:
展开为:
另外根据公式$\nabla_AtrAB = B^T$以及公式$trAB = trBA$可以得到$\nabla_AtrBA = B^T$,所以上式可以继续化简为:
令梯度为0,即可得到$minF(W)$所对应的$W$:
推导完毕
岭回归的矩阵运算
岭回归的矩阵运算推导跟线性回归类似,只是多了一个范数求导的过程
目标:
计算过程
对F进行求导得到:
令$\frac{\partial F}{\partial W} = 0$,有: