随机梯度下降法(SGD)怎样设置自适应步长

可以参考AdaGrad或者AdaDelta这种每次迭代逐特征的步长更新方法来设置自适应步长。
【随机梯度下降法(SGD)怎样设置自适应步长】 简单地来说,使用AdaGrad方法时,只有特征值为1的时候才会真正的进行梯度下降。对于频繁出现1的特征列,每次更新的步长很小,对于十分稀疏的列,每次更新的步长很大。

■网友
好像有个自适应步长调整算法,一开始用大步长,到后来用小步长,具体请百度


    推荐阅读