新智元|人工智能领域很多引人注目的进展并不真实
本文插图
新智元报道
来源:Science
编辑:白峰
【新智元导读】近日 , 一名MIT的自由科学家Hutson在Science发文 , 抨击「人工智能的一些进展并不真实」 , MIT研究人员对当前的一些AI论文进行了系统评估后发现 , 新模型和之前的经典模型结果相差并不大 , 论文作者宣称的效果提升大部分是旧模型的微小改动 , 并采用了不同的评价标准 。
人工智能似乎变得越来越聪明 。 每一部 iPhone 都比上一部更好地了解你的面孔、声音和习惯 , 各种性能的提升真的是来自算法的创新吗?
本文插图
Matthew Hutson
多数算法改进缺乏创新性
麻省理工学院(MIT)计算机科学专业的研究生戴维斯?布拉洛克(Davis Blalock)表示 , 有些算法改进来自微调 , 而不是发明者声称的核心创新 , 而且有些改进可能根本不存在 。
Blalock 和他的同事比较了几十种改进神经网络的方法 。 「我们梳理了50篇论文 , 但是我们仍然不知道最先进的技术到底是什么 。 」
研究人员评估了81种剪枝算法 , 这些剪枝算法主要是裁剪一些不必要的连接以提高神经网络效率 。 所有人都都变着法说自己的算法是最好的 ,但他们很少进行公允的有说服力的比较ーー当研究人员把这些算法放在同一标准下评估时 , 10年的时间 , 并没有什么显著的改善 。
本文插图
以剪枝算法为例 , 质疑这些论文主要原因有以下几点:
缺乏一个完备的比较 。 2010年之前的算法没有加入评估 , 最近的更新也没有 , 对比较多的是VGG、ResNet这些经典架构 , 而最新的EfficientNet则很少 。
本文插图
你用了ImageNet , 好我用CIFAR;什么你也用CIFAR , RseNet架构?那我用CIFAR和VGG 。。
数据集和神经网络架构都不统一 , 得出的结论实在很难让人信服 。
本文插图
【新智元|人工智能领域很多引人注目的进展并不真实】
评价指标不一致 , 结果描述不完整 。 仅从效率和准确率无法评估出模型的对比效果 。 只有一篇论文使用了标准差来评估整体的趋势 。
本文插图
还有一点就是大家用的数据预处理方法、超参数的调整策略 , 使用的框架 , 剪枝和微调介入的时期等都没有统一 , 这些都会导致结果的不同 。 比如同样的算法 , 有些PyTorch的实现就比TensorFlow的好 , 当然反过来也有可能 。
本文插图
水论文到底在玩什么把戏?
今年三月份在MLSys上公布的结果让 Blalock 的博士导师 , 麻省理工学院的计算机科学家 John Guttag 感到惊讶 , 「这种不平衡的比较本身就可以解释为什么停滞不前了」 。 这是老一套了 , 对吧?
从当前主流的机器学习架构来看 , 机器学习算法的收益主要来自其结构、损失函数或优化策略的根本性变化 。
卡内基梅隆大学的计算机科学家 Zico Kolter 研究图像识别模型 , 该模型被训练后可以对黑客的「对抗性攻击」免疫 。
一种早期的对抗性训练方法投影梯度下降法(PGD), 现在一些更复杂的方法看似超越了PGD , 但是在二月份的 arXiv 论文中 , Kolter 和他的同事们发现 , 只需要一个简单的技巧来增强PGD , 所有这些方法的效果都差不多 。
推荐阅读
- 新智元|B站上线!DeepMind加UCL强强联手推出深度学习与强化学习进阶课程(附视频)
- 趣头条|滴滴子公司超5亿美元融资 属国内自动驾驶领域单笔融资最高金额
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|机器学习团队常用工具总结,人生苦短,我用Python!
- 千家网|人工智能在半导体市场的发展潜力及其意义
- 国防科技要闻|【每日动态】1000亿美元资助高科技产业/人工智能分析微观结构/下一代武器系统体系结构的评估标准
- 新智元|Science | 人工智能领域很多引人注目的进展并不真实
- 论文Science | 人工智能领域很多引人注目的进展并不真实
- 全息腾讯云公布AI新基建全景布局,微美全息AI视觉落地5大领域
- 人工智能|云从科技集团股份有限公司具体经营项目申报新增机器人、人工智能等