用梯度下降解线性回归问题时,如果学习因子过大的话,训练过程就会发散,我的程序也证实了这一点,可是怎样从数学上理解呢

梯度下降的最大假设是,用当前点的梯度,替代邻域点的梯度。你的学习因子实际上定义的你的邻域范围(或者精确地说,是邻域点集的直径)——通常,对常见的连续甚至光滑函数来说,邻域越小,上述黑体字的误差也就越小。 具体究竟多大才收敛实际上和你能量函数的Lipschitz continuity相关。不过我估计你应该用不了那么深。


    推荐阅读