用梯度下降解线性回归问题时,如果学习因子过大的话,训练过程就会发散,我的程序也证实了这一点,可是怎样从数学上理解呢
梯度下降的最大假设是,用当前点的梯度,替代邻域点的梯度。你的学习因子实际上定义的你的邻域范围(或者精确地说,是邻域点集的直径)——通常,对常见的连续甚至光滑函数来说,邻域越小,上述黑体字的误差也就越小。 具体究竟多大才收敛实际上和你能量函数的Lipschitz continuity相关。不过我估计你应该用不了那么深。
推荐阅读
- 线性模型中参数Θ=(XTX)?1XTY的推导过程
- 对稀疏大矩阵做奇异值分解的方法有哪些
- 梯度下降算法中求J(θ)的最小值时,θ0(常数项)的值怎样确定
- 线性方程组的迭代求解法的收敛性怎样保证
- 简单的线性代数知识在密码学中有啥运用
- 有限元商业软件很多,有没有哪一款最适合土木工程界使用尤其是动力和非线性分析哪些软件计算性能优越
- Myautotime|江淮思皓,或成为大众品牌梯度建设中的一枚重要棋子
- PRML(MLAPP)书中关于线性回归的 Empirical Bayes 推导要怎样理解
- 不可降解|
- 为啥线性回的代价函数J(theta)可以用梯度算法找到全局最优解,梯度算法不是只能找到局部最优解么
