博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
L1正则化与嵌入式特征选择(稀疏性)
阅读量:5789 次
发布时间:2019-06-18

本文共 1063 字,大约阅读时间需要 3 分钟。

岭回归的历史可追溯到1943年由A.Tikhonov发表在《苏联科学院院刊》上的一篇文章,我们知道计算机是在1946年发明出来的,由此可见,这是一个历史悠久的算法,至今依旧有生命力,属于经典算法之一。

岭回归,是线性回归的L2正则化方式。本质上是一种回归。

给定数据集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中xϵR^d dimension,yϵR。我们考虑最简单的线性回归模型,以平方误差为损失函数:

对于正则化不太了解的朋友可以看我这一篇文章,但是我们这里对于正则化有一些更加深入的理解。

正则化(Regularization)是在被优化的目标函数中,添加一项与常数因子λ相乘(有时候也使用α)的参数,这一项就叫做正则项。我们很容易知道,由于目标函数总是向最小化方向发展,则被加进来的这一项会受到惩罚使之更倾向于小。具体的理解可以参考我的《L1与L2正则化》。以下是线性回归带正则化的目标函数表达式。

带L1正则化的线性回归的目标函数:

带L2正则化的线性回归的目标函数,也就是我们提到的岭回归

以上是正则化的感性认识以及其工作原理。我们常用的正则化为L1和L2正则化,也称L1范数正则化与L2范数正则化。这两种正则化都可以用来降低过拟合的风险,但是L1正则化比L2正则化多一个优势在于,其可以更容易获得稀疏(sparse)解,即其会有更少的非零分量。

我举一个直观的例子。假设x仅仅有两个属性,于是根据线性回归的目标函数求解,w都之后有两个分量。即w1与w2,以此为坐标轴,画出一个坐标系。如图所示

那么我们取在这个(w1,w2)空间里平方误差取值一样的点连成线,就成了我们的平方误差项等值线。再画出L1,L2范数的等值线,即在(w1,w2)空间中L1范数与L2范数取值相同的点的连线,如图所示。我们知道,平方误差等值线与正则化项等值线的交点为带正则化项的线性回归目标函数的解。我们从图中可以看出,平方误差等值线与L1正则化等值线的交点,在坐标轴的频率更高,即w1或w2为0;二平方误差等值线与L2正则化等值线的交点更容易出现在象限中,即w1与w2均不为0。由此可见,采用L1范数正则化比L2范数更容易得到稀疏解。

注意到w取得稀疏解则意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,所以求得的结果是得到了仅采用一部分初始特征的模型。我们便可以将L1郑泽华的学习方法视为一种特征选择方法,删掉了部分特征(特征为0),特征选择过程与学习器训练过程融为一体,同时完成。

转载地址:http://kemyx.baihongyu.com/

你可能感兴趣的文章
2018年内蒙古外贸首次突破1000亿元
查看>>
CTOR有助于BCH石墨烯技术更上一层楼
查看>>
被遗忘的CSS
查看>>
Webpack中的sourcemap以及如何在生产和开发环境中合理的设置sourcemap的类型
查看>>
做完小程序项目、老板给我加了6k薪资~
查看>>
java工程师linux命令,这篇文章就够了
查看>>
关于React生命周期的学习
查看>>
webpack雪碧图生成
查看>>
搭建智能合约开发环境Remix IDE及使用
查看>>
Spring Cloud构建微服务架构—服务消费基础
查看>>
RAC实践采坑指北
查看>>
runtime运行时 isa指针 SEL方法选择器 IMP函数指针 Method方法 runtime消息机制 runtime的使用...
查看>>
LeetCode36.有效的数独 JavaScript
查看>>
Scrapy基本用法
查看>>
PAT A1030 动态规划
查看>>
自制一个 elasticsearch-spring-boot-starter
查看>>
【人物志】美团前端通道主席洪磊:一位产品出身、爱焊电路板的工程师
查看>>
一份关于数据科学家应该具备的技能清单
查看>>
机器学习实战_一个完整的程序(一)
查看>>
Web框架的常用架构模式(JavaScript语言)
查看>>