韭菜花音乐|Science:有调查有真相!某些AI领域多年无实际进展( 二 )


韭菜花音乐|Science:有调查有真相!某些AI领域多年无实际进展
文章图片
论文下载地址:https://arxiv.org/pdf/2003.08505.pdf对深度度量学习进行分析的文章来自FacebookAI和CornellTech的研究人员 , 他们发表研究论文预览文稿标题为“AMetricLearningRealityCheck” 。 在论文中 , 研究员声称近十三年深度度量学习(deepmetriclearning)领域的目前研究进展和十三年前的基线方法(Contrastive,Triplet)比较并无实质提高 。 研究员一共指出了现有文献中的三个缺陷:不公平的比较、通过测试集反馈进行训练、不合理的评价指标 。 不公平的比较:一般大家声明一个算法性能优于另一个算法 , 通常需要确保尽可能多的参数不变 , 而在度量学习的论文中不是如此 。 另外 , 一些论文中所提到的精度提高其实只是所选神经网络带来的 , 并不是他们提出的“创新”方法 。 例如2017年的一篇论文声称使用ResNet50获得了巨大的性能提升 , 而实际上他的对比对象是精度较低的GoogleNet 。 通过测试集反馈进行训练:不仅是度量学习领域 , 大多数论文都有这一通病:将数据集一半拆分为测试集 , 一半拆分为训练集 , 不设验证集 。 在具体训练的过程中 , 定期检查模型的测试集精度 , 并报告最佳测试集精度 , 也就是说模型选择和超参数调优是通过来自测试集的直接反馈来完成的 , 这显然会有过拟合的风险 。 不合理的评价指标:为了体现准确性 , 大多数度量学习论文都会报告Recall@K、归一化相互信息(NMI)和F1分数 。 但这些一定是最好的衡量标准吗?如下图三个嵌入空间 , 每一个recall@1指标评价都接近满分 , 而事实上 , 他们之间的特征并不相同 。 此外 , F1和NMI分数也接近 , 这在一定程度上说明 , 其实 , 这几个指标并没带来啥信息 。
三个toy示例:不同的精确指标如何评分 。
在指出问题的同时 , FB和康奈尔的研究员自然也指出了改进建议 , 针对上述三个缺点建议进行公平比较和重复性实验、通过交叉验证进行超参数搜索、采用更加准确的信息性、准确性度量 。 4对抗性训练:所有改进都可通过“提前停止”实现
韭菜花音乐|Science:有调查有真相!某些AI领域多年无实际进展
文章图片
论文下载地址:
https://openreview.net/pdf?id=ByJHuTgA-
对“对抗性训练”进行研究的论文标题是“Overfittinginadversariallyrobustdeeplearning” , 第一作者是来自卡内基梅陇大学的研究员LeslieRice 。 在论文中 , 作者提到机器学习算法的进步可以来自架构、损失函数、优化策略等的改变 , 对这三个因素中的任何一个进行微调都能够改变算法的性能 。 他的研究领域是对抗训练 , 他说:经过训练的图像识别模型可以免受黑客的''对抗性攻击'' , 早期的对抗训练方法被称为投影梯度下降算法(projectedgradientdescent) 。 近期的很多研究都声称他们的对抗训练算法比投影梯度下降算法要好的多 , 但是经过研究发现 , 几乎所有最近的算法改进在对抗性训练上的性能改进都可以通过简单地使用“提前停止”来达到 。 另外 , 在对抗训练模型中 , 诸如双下降曲线之类的效应仍然存在 , 观察到的过拟合也不能很多的解释 。 最后 , 作者研究了几种经典的和现代的深度学习过拟合补救方法 , 包括正则化和数据增强 , 发现没有一种方法能超得过“提前停止”达到的收益 。 所以 , 他们得出结论:PGD之类的创新很难实现 , 当前的研究很少有实质性改进 。 5语言模型:LSTM仍然一枝独秀
韭菜花音乐|Science:有调查有真相!某些AI领域多年无实际进展
文章图片
对语言翻译进行研究的论文名为“OntheStateoftheArtofEvaluationinNeuralLanguageModels , 此论文是DeepMind和牛津大学合力完成 。 在论文中 , 作者提到神经网络架构的不断创新 , 为语言建模基准提供了稳定的最新成果 。 这些成果都是使用不同的代码库和有限的计算资源进行评估的 , 而这种评估是不可控的 。 根据其论文内容 , 作者一共主要研究了三个递归模型架构(recurrentarchitectures) , 分别是:LSTM、RHN(RecurrentHighwayNetwork)、NAS 。 研究RHN是因为它在多个数据集上达到了SOTA , 而研究NAS是因为它的架构是基于自动强化学习的优化过程的结果 。 最后 , 作者通过大规模的自动黑箱超参数调优 , 重新评估了几种流行的体系结构和正则化方法 , 得出的一个结论是:标准的LSTM体系结构在适当的正则化后 , 其性能表现优于“近期”的模型 。


推荐阅读