岭回归的历史可追溯到1943年由A.Tikhonov发表在《苏联科学院院刊》上的一篇文章,我们知道计算机是在1946年发明出来的,由此可见,这是一个历史悠久的算法,至今依旧有生命力,属于经典算法之一。
岭回归,是线性回归的L2正则化方式。本质上是一种回归。
给定数据集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中xϵR^d dimension,yϵR。我们考虑最简单的线性回归模型,以平方误差为损失函数:
对于正则化不太了解的朋友可以看我这一篇文章,但是我们这里对于正则化有一些更加深入的理解。
正则化(Regularization)是在被优化的目标函数中,添加一项与常数因子λ相乘(有时候也使用α)的参数,这一项就叫做正则项。我们很容易知道,由于目标函数总是向最小化方向发展,则被加进来的这一项会受到惩罚使之更倾向于小。具体的理解可以参考我的《L1与L2正则化》。以下是线性回归带正则化的目标函数表达式。
带L1正则化的线性回归的目标函数:
带L2正则化的线性回归的目标函数,也就是我们提到的岭回归:
以上是正则化的感性认识以及其工作原理。我们常用的正则化为L1和L2正则化,也称L1范数正则化与L2范数正则化。这两种正则化都可以用来降低过拟合的风险,但是L1正则化比L2正则化多一个优势在于,其可以更容易获得稀疏(sparse)解,即其会有更少的非零分量。
我举一个直观的例子。假设x仅仅有两个属性,于是根据线性回归的目标函数求解,w都之后有两个分量。即w1与w2,以此为坐标轴,画出一个坐标系。如图所示
那么我们取在这个(w1,w2)空间里平方误差取值一样的点连成线,就成了我们的平方误差项等值线。再画出L1,L2范数的等值线,即在(w1,w2)空间中L1范数与L2范数取值相同的点的连线,如图所示。我们知道,平方误差等值线与正则化项等值线的交点为带正则化项的线性回归目标函数的解。我们从图中可以看出,平方误差等值线与L1正则化等值线的交点,在坐标轴的频率更高,即w1或w2为0;二平方误差等值线与L2正则化等值线的交点更容易出现在象限中,即w1与w2均不为0。由此可见,采用L1范数正则化比L2范数更容易得到稀疏解。
注意到w取得稀疏解则意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,所以求得的结果是得到了仅采用一部分初始特征的模型。我们便可以将L1郑泽华的学习方法视为一种特征选择方法,删掉了部分特征(特征为0),特征选择过程与学习器训练过程融为一体,同时完成。