bp神经网络反向传播时,为啥会出现梯度弥散的情况?

CNN里激活函数的选择很大程度影响到梯度消失的情况。以sigmoid function为例,bp神经网络反向传播时,为啥会出现梯度弥散的情况?
bp神经网络反向传播时,为啥会出现梯度弥散的情况?
bp神经网络反向传播时,为啥会出现梯度弥散的情况?
映射到了bp神经网络反向传播时,为啥会出现梯度弥散的情况?
的区间内,这个映射是非线性的,越是趋于两极,bp神经网络反向传播时,为啥会出现梯度弥散的情况?
的变化对于bp神经网络反向传播时,为啥会出现梯度弥散的情况?
的变化影响越小,于是bp神经网络反向传播时,为啥会出现梯度弥散的情况?
就变得非常小,再经过反向传导的链式法则运算,最后得到的梯度就会变得很小,出现所谓的梯度消失的情况。这个问题可以通过选择激活函数进行改善,比如PReLU 【bp神经网络反向传播时,为啥会出现梯度弥散的情况?】 bp神经网络反向传播时,为啥会出现梯度弥散的情况?
。在RNN中,LSTM对于防止梯度消失的作用非常大。在LSTM中你可以选择关闭“遗忘闸门”来避免改变内容,即便打开了“遗忘闸门”,模型也会保持一个新旧值的加权平均。RNN vs LSTM: Vanishing Gradients 这个demo比较了RNN和LSTM梯度消失的情况,很有意思,可以看一下。


    推荐阅读