深度残差收缩网络:借助注意力机制实现特征的软阈值化

文章图片

文章图片
作者|哈尔滨工业大学(威海)讲师赵明航
本文解读了一种新的深度注意力算法 , 即深度残差收缩网络(DeepResidualShrinkageNetwork) 。

文章图片
从功能上讲 , 深度残差收缩网络是一种面向强噪声或者高度冗余数据的特征学习方法 。 本文首先回顾了相关基础知识 , 然后介绍了深度残差收缩网络的动机和具体实现 , 希望对大家有所帮助

文章图片
相关基础
深度残差收缩网络主要建立在三个部分的基础之上:深度残差网络、软阈值函数和注意力机制 。
1.1深度残差网络
深度残差网络无疑是近年来最成功的深度学习算法之一 , 在谷歌学术上的引用已经突破四万次 。 相较于普通的卷积神经网络 , 深度残差网络采用跨层恒等路径的方式 , 缓解了深层网络的训练难度 。
深度残差网络的主干部分是由很多残差模块堆叠而成的 , 其中一种常见的残差模块如下图所示 。

文章图片
1.2软阈值函数
软阈值函数是大部分降噪方法的核心步骤 。 首先 , 我们需要设置一个正数阈值 。 该阈值不能太大 , 即不能大于输入数据绝对值的最大值 , 否则输出会全部为零 。
然后 , 软阈值函数会将绝对值低于这个阈值的输入数据设置为零 , 并且将绝对值大于这个阈值的输入数据也朝着零收缩 , 其输入与输出的关系如下图(a)所示 。

文章图片
软阈值函数的输出y对输入x的导数如上图(b)所示 。 我们可以发现 , 其导数要么取值为0 , 要么取值为1 。 从这个角度看的话 , 软阈值函数和ReLU激活函数有一定的相似之处 , 也有利于深度学习算法训练时梯度的反向传播 。
值得注意的是 , 阈值的选取对软阈值函数的结果有着直接的影响 , 至今仍是一个难题 。
1.3注意力机制
注意力机制是近年来深度学习领域的超级研究热点 , 而Squeeze-and-ExcitationNetwork(SENet)则是最为经典的注意力算法之一 。
如下图所示 , SENet通过一个小型网络学习得到一组权值系数 , 用于各个特征通道的加权 。 这其实是一种注意力机制:首先评估各个特征通道的重要程度 , 然后根据其重要程度赋予各个特征通道合适的权重 。

文章图片
如下图所示 , SENet可以与残差模块集成在一起 。 在这种模式下 , 由于跨层恒等路径的存在 , SENet可以更容易得到训练 。 另外 , 值得指出的是 , 每个样本的权值系数都是根据其自身设置的;也就是说 , 每个样本都可以有自己独特的一组权值系数 。

文章图片

文章图片
深度残差收缩网络
接下来 , 本部分针对深度残差收缩网络的动机、实现、优势和验证 , 分别展开了介绍 。
2.1动机
首先 , 大部分现实世界中的数据 , 包括图片、语音或者振动 , 都或多或少地含有噪声或者冗余信息 。
从广义上讲 , 在一个样本里面 , 任何与当前模式识别任务无关的信息 , 都可以被认为是噪声或者冗余信息 。 这些噪声或者冗余信息很可能会对当前的模式识别任务造成不利的影响 。
其次 , 对于任意的两个样本 , 它们的噪声或冗余含量经常是不同的 。 换言之 , 有些样本所含的噪声或冗余要多一些 , 有些要少一些 。 这就要求我们在设计算法的时候 , 应该使算法具备根据每个样本的特点、单独设置相关参数的能力 。
在上述两点的驱动下 , 我们能不能将传统信号降噪算法中的软阈值函数引入深度残差网络之中呢?软阈值函数中的阈值应该怎样选取呢?深度残差收缩网络就给出了一种答案 。
2.2实现
深度残差收缩网络融合了深度残差网络、SENet和软阈值函数 。 如下图所示 , 深度残差收缩网络就是将残差模式下的SENet中的“重新加权”替换成了“软阈值化” 。
在SENet中 , 所嵌入的小型网络是用于获取一组权值系数;在深度残差收缩网络中 , 该小型网络则是用于获取一组阈值 。

文章图片
为了获得合适的阈值 , 相较于原始的SENet , 深度残差收缩网络里面的小型网络的结构也进行了调整 。 具体而言 , 该小型网络所输出的阈值 , 是(各个特征通道的绝对值的平均值)×(一组0和1之间的系数) 。
通过这种方式 , 深度残差收缩网络不仅确保了所有阈值都为正数 , 而且阈值不会太大(不会使所有输出都为0) 。
如下图所示 , 深度残差收缩网络的整体结构与普通的深度残差网络是一致的 , 包含了输入层、刚开始的卷积层、一系列的基本模块以及最后的全局均值池化和全连接输出层等 。

文章图片
2.3优势
首先 , 软阈值函数所需要的阈值 , 是通过一个小型网络自动设置的 , 避免了人工设置阈值所需要的专业知识 。
然后 , 深度残差收缩网络确保了软阈值函数的阈值为正数 , 而且在合适的取值范围之内 , 避免了输出全部为零的情况 。
同时 , 每个样本都有自己独特的一组阈值 , 使得深度残差收缩网络适用于各个样本的噪声含量不同的情况 。

文章图片
结论
由于噪声或者冗余信息是无处不在的 , 深度残差收缩网络 , 或者说这种“注意力机制”+“软阈值函数”的思路 , 或许有着广阔的拓展空间和应用范围 。
论文链接:
https://www.paperweekly.site/papers/3397
代码链接:
https://github.com/zhao62/Deep-Residual-Shrinkage-Networks
【end】
对存在潜伏期的新冠肺炎 , 快速分析其传染关系及接触关系 , 积极采取隔离、观察和治疗措施是非常有利的防控疫情的科学防控依据 。
周四(明晚)20点 , 我们一起来看SophonKG如何追寻新冠病毒轨迹 , 运用AI技术、工具建立相关知识图谱 , 通过确诊案例的亲属、同事和朋友的关系网找出密切接触者进行及时隔离 , 同时刻画出确诊案例的活动轨迹 , 找到其关系网之外的密切接触者及病毒可能的“行凶环境” 。

文章图片
推荐阅读
百万人学AI:CSDN重磅共建人工智能技术新生态
154万AI开发者用数据告诉你 , 中国AI如何才能弯道超车?
技术大佬的肺腑之言:“不要为了AI而AI”!|刷新CTO
悼念前端大牛司徒正美
业内最大的“空气币”——以太坊?
Spark3.0发布了 , 代码拉过来 , 打个包 , 跑起来!
【深度残差收缩网络:借助注意力机制实现特征的软阈值化】你点的每个“在看” , 我都认真当成了AI
推荐阅读
- 深度科普!基于自体肿瘤浸润淋巴细胞的免疫疗法最新研究进展汇总
- 美国下一场财政危机已经来临,新冠疫情还没有过去,美媒深度报道
- 一个人能走多远,取决于你思维高度和深度
- 深度解析!詹姆斯、莱昂纳德和字母哥谁才是当今联盟第一人
- 2020-2024年中国田园综合体深度调研
- 毕淑敏的温暖句子,唯美又有深度,句句入心,带你度过人生的低谷
- 《我的世界:地下城》IGN 7分 好玩但缺乏深度
- 很有深度的一篇美文,你若不伤岁月无恙
- 故事很短,教你不再生气(深度好文)
- 生命的叩问|深度美诗,戳穿生活的疑惑,敲开你我通向心灵的大门
