读芯术不可不看系列!一年前,现代机器学习最重要的一篇论文诞生了


全文共2263字 , 预计学习时长8分钟
读芯术不可不看系列!一年前,现代机器学习最重要的一篇论文诞生了
本文插图
图源:unsplash
在现实应用中 , 训练机器学习模型是数据科学解决方案里最具挑战性和计算成本最高的方面之一 。 几十年来 , 人工智能界在单一的公理假设下发展出了数百种技术 , 以改进机器学习模型的训练 , 即训练应该覆盖整个模型 。
事实上 , 我们不常能看到挑战机器学习核心原则基础的新研究想法 。 一年前 , 麻省理工学院研究人员发表了关于彩票假设(Lottery Ticket Hypothesis)的论文 , 提出了一种更智能、更简单的方法 , 通过关注模型的子集来训练神经网络 。 这可谓是人工智能界的大新闻 。
在机器学习模型的训练过程中 , 数据科学家经常在理论与现实世界解决方案约束下的妥协 。 通常 , 对于一个特定的问题 , 一个似乎很理想的神经网络架构并不能完全实现 , 训练成本就是最大的阻碍 。
神经网络的初始训练需要大量的数据集和昂贵的计算时间成本 , 是为了得到一个非常大的神经网络结构 , 且神经网络和隐藏层之间有联系 。 这种结构通常需要通过优化技术来移除一些连接 , 并调整模型的大小 。
读芯术不可不看系列!一年前,现代机器学习最重要的一篇论文诞生了
本文插图
图源:medium
有一个问题困扰了人工智能研究人员几十年 , 是否真的需要从那些大型神经网络结构开始?显然 , 如果将一个架构中几乎每个神经元都连接起来 , 很可能会得到一个能执行初始任务的模型 , 但成本太高了 。
不能从更小、更精简的神经网络架构开始吗?这就是彩票假设的本质 。
用博彩界的一个类比 , 机器学习模型的训练通常被比作通过购买每一张可能中奖的彩票来中奖 。 如果知道会中奖的彩票是什么样子的 , 选择彩票时是否可以更明智?
在机器学习模型中 , 训练过程产生了大型神经网络结构 , 相当于一大袋彩票 。 在初始训练之后 , 模型需要进行优化技术 , 例如剪枝 , 去除网络中不必要的权重 , 以便在不牺牲性能的情况下减小模型 。
这相当于在包里寻找中奖的彩票 , 然后把剩下的扔掉 。 通常 , 剪枝技术最终会产生比原来小90%的神经网络结构 。
问题显而易见:如果一个网络的规模可以缩小 , 为什么不训练这个更小的架构 , 让训练更有效?矛盾在于 , 机器学习解决方案的实践经验表明 , 剪枝所揭示的体系结构从一开始就很难训练 , 得到的准确度也低于原始网络 。
读芯术不可不看系列!一年前,现代机器学习最重要的一篇论文诞生了
本文插图
图源:unsplash
所以 , 我们可以买一大袋的票 , 然后用自己的方式去获得中奖号码 , 但是相反的过程太难了 。
麻省理工学院彩票假设背后的主要思想是 , 一个大的神经网络将始终包含一个较小的子网络 , 如果从一开始就进行训练 , 它将获得与较大结构相似的准确度 。 具体而言 , 研究报告概述了以下假设:
彩票假设:一个随机初始化的密集神经网络包含一个初始化的子网络 , 当在隔离状态下训练时 , 经过最多相同迭代次数的训练 , 它可以匹配原始网络的测试准确度 。
在论文中 , 较小的子网络通常被称为“中奖的彩票” 。 考虑一个 f(t, a, p)形式的神经网络 , 其中t=训练时间 , a=准确度 , p=参数 。 现在假设s是所有来自原始结构 , 剪枝过程生成的 , 可训练神经网络的子集 。
彩票假设告诉我们 , 在t’<= t, a’>= a 且p’<= p的情况下 , 存在一个f’(t’, a’, p’)


    推荐阅读