机器之心史上最大AI模型GPT-3上线;Transformer跨界做目标检测( 二 )


本研究中策略迁移框架(PTF)示意图 。
算法 1:PTF-A3C 。
两种风格的网格世界(Grid world)W 和 W』 。
两种具有连续控制的评估环境 。
推荐:实验表明 , 这种新型策略迁移框架能够显著加速学习过程 , 并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法 。
论文 3:The Resurgence of Structure in Deep Neural Networks
作者:Petar Veli?kovi?
论文链接:https://www.repository.cam.ac.uk/handle/1810/292230
摘要:使用深度神经网络的机器学习(「深度学习」)允许直接从原始输入数据中学习复杂特征 , 并完全消除了学习流程中手动硬编码的特征提取 。 这就可以通过以往分裂的研究领域 , 如计算机视觉、自然语言处理、强化学习和生成建模等来实现最佳性能 。 这些成功的案例都离不开大量可用的标签训练样本(「大数据」) , 这些训练样本展现出简单的网格结果(「文本或图像」) , 并通过卷积或循环网络加以利用 。 但是由于神经网络的自由度非常大 , 使得它们的泛化能力易于受到过拟合等的影响 。
但是 , 对于很多领域来说 , 广泛的数据收集并不总是适合、负担得起或者可行的 。 此外 , 数据通常以更为复杂的结构组织起来 , 大多数现有方法也只是不采纳这种结构 。 这种类型的任务在生物医学领域非常丰富 。
所以 , 在本文中 , GAT 作者、剑桥大学三一学院博士生 Petar Veli?kovi?做出假设 , 如果深度学习能够在此类环境中充分发挥其潜力 , 则需要重新考虑「硬编码」方法 , 即通过结果性归纳偏差 , 将输入数据中固有结构的假设直接集成到他提出的架构和学习算法中 。 作者通过自己开发的 3 个 structure-infused 神经网络架构(在稀疏多模态和图结构数据上运算)和 1 个 structure-informed 图神经网络学习算法直接验证了以上假设 , 并证明了较传统基线模型和算法的显著性能提升 。
本文作者 Petar Veli?kovi?现为 DeepMind 研究科学家 , 在剑桥大学三一学院取得计算机科学博士学位 , 其导师为 Pietro Liò 。 他的研究兴趣是设计能够在非平凡结构数据(如图)上运算的神经网络架构 , 以及这些架构在算法推理和计算生物学领域的应用 。
本篇博士论文的主要贡献:早期跨模态融合、图卷积和图无监督学习 。
左:单个循环神经网络单元;中:RNN 单元的扩展 , 以执行反向传播;右:堆叠两个 RNN 单元 , 得到「深度」RNN 。
用于图像分类的简单跨模态 CNN 图示 。
推荐:最为大家所熟知的是 , Peter Veli?kovi?为图注意力网络(Graph Attention Network, GAT)和深度图信息最大化(Deep Graph Infomax, DGI)的第一作者 。
论文 4:End-to-End Object Detection with Transformers
作者:Nicolas Carion、Francisco Massa、Gabriel Synnaeve 等
论文链接:https://arxiv.org/pdf/2005.12872v1.pdf
摘要:近年来 , Transformer 成为了深度学习领域非常受欢迎的一种架构 , 它依赖于一种简单但却十分强大的机制——注意力机制 , 使得 AI 模型有选择地聚焦于输入的某些部分 , 因此推理更加高效 。 Transformer 已经广泛应用于序列数据的处理 , 尤其是在语言建模、机器翻译等自然语言处理领域 。 此外 , 它在语音识别、符号数学、强化学习等多个领域也有应用 。 但令人意外的是 , 计算机视觉领域一直还未被 Transformer 所席卷 。
为了填补这一空白 , Facebook AI 的研究者推出了 Transformer 的视觉版本—Detection Transformer(以下简称 DETR) , 用于目标检测和全景分割 。 与之前的目标检测系统相比 , DETR 的架构进行了根本上的改变 。 这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架 。 在性能上 , DETR 可以媲美当前的 SOTA 方法 , 但架构得到了极大简化 。


推荐阅读