新智元|人工智能领域很多引人注目的进展并不真实

本文插图

新智元报道
来源：Science
编辑：白峰
【新智元导读】近日，一名MIT的自由科学家Hutson在Science发文，抨击「人工智能的一些进展并不真实」， MIT研究人员对当前的一些AI论文进行了系统评估后发现，新模型和之前的经典模型结果相差并不大，论文作者宣称的效果提升大部分是旧模型的微小改动，并采用了不同的评价标准。
人工智能似乎变得越来越聪明。每一部 iPhone 都比上一部更好地了解你的面孔、声音和习惯，各种性能的提升真的是来自算法的创新吗？

本文插图

Matthew Hutson
多数算法改进缺乏创新性
麻省理工学院(MIT)计算机科学专业的研究生戴维斯?布拉洛克(Davis Blalock)表示，有些算法改进来自微调，而不是发明者声称的核心创新，而且有些改进可能根本不存在。
Blalock 和他的同事比较了几十种改进神经网络的方法。「我们梳理了50篇论文，但是我们仍然不知道最先进的技术到底是什么。」
研究人员评估了81种剪枝算法，这些剪枝算法主要是裁剪一些不必要的连接以提高神经网络效率。所有人都都变着法说自己的算法是最好的，但他们很少进行公允的有说服力的比较ーー当研究人员把这些算法放在同一标准下评估时， 10年的时间，并没有什么显著的改善。

本文插图

以剪枝算法为例，质疑这些论文主要原因有以下几点：
缺乏一个完备的比较。 2010年之前的算法没有加入评估，最近的更新也没有，对比较多的是VGG、ResNet这些经典架构，而最新的EfficientNet则很少。

本文插图

你用了ImageNet ，好我用CIFAR；什么你也用CIFAR ， RseNet架构？那我用CIFAR和VGG 。。
数据集和神经网络架构都不统一，得出的结论实在很难让人信服。

本文插图
【新智元|人工智能领域很多引人注目的进展并不真实】

评价指标不一致，结果描述不完整。仅从效率和准确率无法评估出模型的对比效果。只有一篇论文使用了标准差来评估整体的趋势。

本文插图

还有一点就是大家用的数据预处理方法、超参数的调整策略，使用的框架，剪枝和微调介入的时期等都没有统一，这些都会导致结果的不同。比如同样的算法，有些PyTorch的实现就比TensorFlow的好，当然反过来也有可能。

本文插图

水论文到底在玩什么把戏？
今年三月份在MLSys上公布的结果让 Blalock 的博士导师，麻省理工学院的计算机科学家 John Guttag 感到惊讶，「这种不平衡的比较本身就可以解释为什么停滞不前了」。这是老一套了，对吧?
从当前主流的机器学习架构来看，机器学习算法的收益主要来自其结构、损失函数或优化策略的根本性变化。
卡内基梅隆大学的计算机科学家 Zico Kolter 研究图像识别模型，该模型被训练后可以对黑客的「对抗性攻击」免疫。
一种早期的对抗性训练方法投影梯度下降法(PGD)，现在一些更复杂的方法看似超越了PGD ，但是在二月份的 arXiv 论文中， Kolter 和他的同事们发现，只需要一个简单的技巧来增强PGD ，所有这些方法的效果都差不多。

新智元|人工智能领域很多引人注目的进展并不真实

推荐阅读

如果可以，你最想回到哪个时刻

大虎论史▲中科院毕业后定居美国，他说：这比较适合，江姐的儿子今年74

落水洞古树茶特点,识山头落水洞

『汽车之家』缤越PRO越来越聪明，小钢炮升级“大脑”

龙井茶的故事,龙井茶的副作用有哪些

「轻聊综艺」再改就晚了！，雨天开车从不关闭这个不起眼的功能？发动机报废

武汉黄鹤楼景区热度全国第一|中秋国庆双节假期首日，武汉黄鹤楼景区热度全国第一

信息学竞赛介绍篇信息学奥赛

【华夏晋韵】犀利现实，太经典了！，朋友圈一针见血的句子

凤姐|凤姐嘲笑“奶茶妹妹”身材不好，并自拍相互对比，竟得到大批网友支持？

红茶生姜的功效与作用,干姜红茶的功效与作用

无忧浅谈影娱|留言区引来谩骂，陈小春深夜回呛酸民，陈小春晒儿子生活短片

人民币|人民币对美元汇率逼近6.3元时代：出国旅游、购物等换汇成本降低

栾智心|将会面对米兰、拉齐奥竞争！，莱比锡红牛准备冬窗签下索博斯洛伊

唯品会购物放心吗，信息安全有保障吗

国际兵器谱|从油舱到主机，重油经历了什么？，舰船技术｜烧重油的船舶

中年|枣庄这小区工棚倒塌成隐患，记者采访遭物业强势阻挠

黄龄|二字女歌手给大叔型男演员当小三，在化妆间被男友当场捉奸

鸭肉炖怎么做好吃,怎样炖鸭肉好吃又简单家常菜-

阴茎包皮龟头炎