bp神经网络反向传播时,为啥会出现梯度弥散的情况?
CNN里激活函数的选择很大程度影响到梯度消失的情况。以sigmoid function为例,
,
把
映射到了
的区间内,这个映射是非线性的,越是趋于两极,
的变化对于
的变化影响越小,于是
就变得非常小,再经过反向传导的链式法则运算,最后得到的梯度就会变得很小,出现所谓的梯度消失的情况。这个问题可以通过选择激活函数进行改善,比如PReLU 【bp神经网络反向传播时,为啥会出现梯度弥散的情况?】
。在RNN中,LSTM对于防止梯度消失的作用非常大。在LSTM中你可以选择关闭“遗忘闸门”来避免改变内容,即便打开了“遗忘闸门”,模型也会保持一个新旧值的加权平均。RNN vs LSTM: Vanishing Gradients 这个demo比较了RNN和LSTM梯度消失的情况,很有意思,可以看一下。
推荐阅读
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 疾病|医生不避讳:4种疾病可以通过性传播,思想开放的人要小心了
- 虐杀动物视频买卖形成地下产业链,媒体:传播也是宣扬暴力
- 产业链|虐杀动物视频买卖形成地下产业链 传播也是宣扬暴力
- |公益广告传播城市文明正能量
- 基于AGPL协议的开源软件版权归谁
- 抗体|或为母婴传播证据外媒:新加坡一名新生婴儿检测出新冠抗体
- 过敏|阴虱的传播途径主要有2个,稍不注意,年轻男女就易中招
- 传播|乙肝妈妈能生孩子吗?能喂奶吗?怎么预防感染其他家人?
- 神经网络算法是否真的属于人工智能范畴
