怎样评价IndRNN模型( 三 ) 乍看起来

梯度截断
在反向传播中，梯度消失/爆炸前会有一个渐变的过程。梯度截断的意思就是，在渐变过程中，人为设定只传递几步，即人为设定对角矩阵连乘几次，然后强行拉回正常值水平，再进行梯度下降。该方法对解决梯度问题比较有效，但总有人为的因素，且强行拉回的值不一定准确。有没有更优雅的方法呢？
IndRNN
为了解决梯度消失/爆炸问题，IndRNN 引入了 Relu 作为激活函数，并且将层内的神经元独立开来。对 RNN 的式子稍加改进，就变成了 IndRNN：

权重系数从矩阵 U 变成了向量 u 。⊙ 表示矩阵元素积。也即在 t 时刻，每个神经元只接受此刻的输入以及 t-1 时刻自身的状态作为输入。
而传统 RNN 在 t 时刻每一个神经元都接受 t-1 时刻所有神经元的状态作为输入。所以 IndRNN 中的每个神经元可以独立地处理一份空间 pattern，可视化也就变得可行了。现在来看一下梯度问题：

与传统 RNN 的梯度作对比，可以发现此时的连积操作不再是矩阵操作，而是将激活函数的导数与循环权重系数独立起来，使用 Relu 作为激活函数也就顺理成章了。至此，梯度问题完美解决（作者在论文里有详细的推导过程）。
神经元之间的相互连接依赖层间交互来完成。也就是说，下一层的神将元会接受上一层所有神经元的输出作为输入（相当于全连接层）。
作者在论文里证明了两层的 IndRNN 相当于一层激活函数为线性函数、循环权重为可对角化矩阵的传统 RNN。
IndRNN 可实现多层堆叠。因为在多层堆叠结构中，层间交互是全连接方式，因此可以进行改进，比如改全连接方式为 CNN 连接，也可引入 BN、残差连接等。
实验介绍实验部分首先在三个评估 RNN 模型的常用任务上进行，以验证 IndRNN 的长程记忆能力和深层网络训练的可行性，为验证性实验。然后在骨骼动作识别任务上进行预测，为实验性实验。
Adding Problem
任务描述：输入两个序列，第一个序列是一串在（0，1）之间均匀采样的数字，第二个序列是一串同等长度的、其中只有两个数字为 1，其余为 0 的数字，要求输出与第二个序列中两个数字 1 对应的第一个序列中的两个数字的和。
实验的序列长度分别为 100，500 和 1000，采用 MSE 作为目标函数。

实验结果可以看出，IRNN 和 LSTM 都只能处理中等长度的序列（500-1000步），而 IndRNN 可以轻松处理时间跨度 5000 步的序列数据。
Sequential MNIST Classification
任务描述：输入一串 MINIST 像素点的数据，然后进行分类。而 pMINIST 则在 MINIST 任务上增加了难度：像素点数据进行了置换。

Language Modeling
任务描述：在字符级别 PTB 数据集上进行语言模型的评估。在该任务中，为了验证 IndRNN 可以构造深层网络，论文里给出了 21 层 IndRNN 的训练以及结果。

Skeleton Based Action Recognition
任务描述：使用了 NTU RGB+D 的数据库，是目前为止最大的基于骨骼的动作识别数据库。

怎样评价IndRNN模型( 三 )

推荐阅读

2岁半男童被忘车内8小时后离世|2岁半男童被忘车内8小时后离世什么情况?终于真相了,原来是这样！

大唐天下|孙立，全球混合现实产业引领者

#特别的人儿#美食推荐：豆腐夹肉，孜然羊肉卷，麻辣豆腐干，一碗香

人民日报人民时评：今年高考，在不同中孕育不凡

一到冬天，女儿就馋这早餐，营养又暖胃，每次要吃2碗，1周吃3回

游侠网|创造新的航天历史！SpaceX首次载人火箭发射成功

抖音蓝v代理商靠谱吗抖音蓝v代理好不好做

上观|巴金逝世15周年画册《巴金的世界》开启朵云书院“首发上海”系列

急！！！最近梅雨季，刷完墙会不会容易开裂或者有其他问题

北京日报客户端▲为历史首次，美国轻质原油期货价格跌至-0.01美元/桶

万用表测量线路有没有电压

父母是环卫工人丢人吗,父母做保洁丢人吗-

游戏主|王者5周年皮肤首次曝光，裴擒虎李小龙皮肤出炉，特效威武霸气

中新经纬|5日全国铁路预计发送旅客1160万人次，连续5天超千万

梦到妈妈预示着什么梦见妈妈的含义

「Mi好物君」128GB版本iPhone 11真实上手一个月，说说我的掏心话！

1kg洗衣液能带上高铁吗……洗衣液能不能带上高铁洗衣液能带上高铁吗?

站立式起跑姿势难不难？

青海生活百姓1时间|还未开战就损失惨重，印度国内一片欢腾，巴方枭龙战机摔成零件状

【罗永浩】还记得马云投80亿，华为投100亿，京东砸300亿的那座城市吗？如今怎样了