一文读懂线性回归、岭回归和Lasso回归

本文介绍线性回归模型,从梯度下降和最小二乘的角度来求解线性回归问题,以概率的方式解释了线性回归为什么采用平方损失,然后介绍了线性回归中常用的两种范数来解决过拟合和矩阵不可逆的情况,分别对应岭回归和Lasso回归,最后考虑到线性回归的局限性,介绍了一种局部加权线性回归,增加其非线性表示能力 。

一文读懂线性回归、岭回归和Lasso回归

文章插图
作者 | 文杰
1.线性回归
A、线性回归
假设有数据有:
一文读懂线性回归、岭回归和Lasso回归

文章插图
其中
一文读懂线性回归、岭回归和Lasso回归

文章插图
,
一文读懂线性回归、岭回归和Lasso回归

文章插图
。其中m为训练集样本数,n为样本维度,y是样本的真实值 。线性回归采用一个高维的线性函数来尽可能的拟合所有的数据点,最简单的想法就是最小化函数值与真实值误差的平方(概率解释-高斯分布加最大似然估计) 。即有如下目标函数:
一文读懂线性回归、岭回归和Lasso回归

文章插图
其中线性函数如下:
一文读懂线性回归、岭回归和Lasso回归

文章插图
构建好线性回归模型的目标函数之后,接下来就是求解目标函数的最优解,即一个优化问题 。常用的梯度优化方法都可以拿来用,这里以梯度下降法来求解目标函数 。
一文读懂线性回归、岭回归和Lasso回归

文章插图
另外,线性回归也可以从最小二乘法的角度来看,下面先将样本表示向量化,,,构成如下数据矩阵 。
一文读懂线性回归、岭回归和Lasso回归

文章插图
那么目标函数向量化形式如下:
一文读懂线性回归、岭回归和Lasso回归

文章插图
可以看出目标函数是一个凸二次规划问题,其最优解在导数为0处取到 。
一文读懂线性回归、岭回归和Lasso回归

文章插图
值得注意的上式中存在计算矩阵的逆,一般来讲当样本数大于数据维度时,矩阵可逆,可以采用最小二乘法求得目标函数的闭式解 。当数据维度大于样本数时,矩阵线性相关,不可逆 。此时最小化目标函数解不唯一,且非常多,出于这样一种情况,我们可以考虑奥卡姆剃刀准则来简化模型复杂度,使其不必要的特征对应的w为0 。所以引入正则项使得模型中w非0个数最少 。当然,岭回归,lasso回归的最根本的目的不是解决不可逆问题,而是防止过拟合 。
B、概率解释
损失函数与最小二乘法采用最小化平方和的概率解释 。假设模型预测值与真实值的误差为,那么预测值
一文读懂线性回归、岭回归和Lasso回归

文章插图
与真实值
一文读懂线性回归、岭回归和Lasso回归

文章插图
之间有如下关系:
一文读懂线性回归、岭回归和Lasso回归

文章插图
根据中心极限定理,当一个事件与很多独立随机变量有关,该事件服从正态分布。一般来说,连续值我们都倾向于假设服从正态分布 。假设每个样本的误差独立同分布均值为0,方差为σ的高斯分布
一文读懂线性回归、岭回归和Lasso回归

文章插图
,所以有:
一文读懂线性回归、岭回归和Lasso回归

文章插图
即表示满足以均值为,方差为的高斯分布 。
一文读懂线性回归、岭回归和Lasso回归

文章插图
由最大似然估计有:
一文读懂线性回归、岭回归和Lasso回归

文章插图
一文读懂线性回归、岭回归和Lasso回归

文章插图
岭回归和Lasso回归
岭回归的目标函数在一般的线性回归的基础上加入了正则项,在保证最佳拟合误差的同时,使得参数尽可能的“简单”,使得模型的泛化能力强(即不过分相信从训练数据中学到的知识) 。正则项一般采用一,二范数,使得模型更具有泛化性,同时可以解决线性回归中不可逆情况 。
一文读懂线性回归、岭回归和Lasso回归

文章插图
其迭代优化函数如下:
一文读懂线性回归、岭回归和Lasso回归

文章插图
另外从最小二乘的角度来看,通过引入二范正则项,使其主对角线元素来强制矩阵可逆 。


推荐阅读