FB最大模型训练一轮电费就好几百万,机器学习的训练成本难题

文章图片
大数据文摘出品
来源:economist
编译:张大笔茹、Andy
对于计算工业 , 其最基本的一个假设是:数字处理会变得越来越便宜 。 并且根据著名的摩尔定律 , 可以预测在给定尺寸的芯片其上面能集成的电路个数(差不多相当于算力)通常每两年会翻一番 。
斯坦福人工智能研究所副所长克里斯托弗·曼宁表示 , 对于许多相对简单的AI应用来言 , 上述假设意味着训练成本的降低 。 但对于有些应用现在却不是这样的 , 特别是因为不断增加的研究复杂性和竞争性 , 使得最前沿模型的训练成本还在不断上升 。
曼宁用BERT模型来举例 , BERT是谷歌在18年提出的AI语言模型 , 已被用在谷歌搜索中 。 该模型有超过3.5亿个内部参数 , 而且要大量数据来进行训练 , 大概用了33亿个大部分来自维基百科的单词来训练 。 接着曼宁说 , 现在看来维基百科都不是个多大的数据集了 。 “如果能用300亿个单词训练一个系统 , 那它的性能肯定比用30亿个单词训练的系统要好 。 ”但更多的数据也意味着要用更多算力进行支持 。

文章图片
总部位于加州的OpenAI表示 , 随着对机器学习兴趣的不断增加 , 对算力的需求从12年开始也急剧增加了 。 到18年 , 用于训练大型模型的计算机算力相比之前已增长了30万倍 , 并且还每三个半月翻一番(见图) 。 比如 , 为训练能在DOTA2中击败人类的“OpenAIFive”系统 , 就几乎将机器学习训练扩展到了“前所未有的水平” , 差不多用数千块芯片训练了十多个月 。
关于所有这些训练成本的确切数字 , 马萨诸塞州阿默斯特大学的研究人员在19年发表的一篇论文中进行了估计 , 例如训练某个版本的Transformer模型可能就要花费300万美金 。 同时Facebook的AI负责人杰罗姆·佩森蒂表示 , 针对当前最大的模型进行一轮训练光是电费可能就好几百万美金 。
云计算辅助
然而 , 对于Facebook这样19年利润就达185亿美元的公司 , 这点钱不算什么 。 但对于那些现金并不充足的公司就有点压力山大了 。 著名风险投资公司AndreessenHorowitz(a16z)指出 , 许多AI初创公司都是从云计算公司(如亚马逊和微软)来租用训练所需的算力 。 而因此带来的费用(有时占收入的25%或更多)也是AI初创公司投资吸引力低于老式软件公司的原因之一 。 3月 , 曼宁博士在斯坦福大学的同事们 , 包括著名的李飞飞 , 一起呼吁创建美国国家研究云计算计划 , 旨在帮助美国AI研究人员应对不断增长的训练费用 。
对算力日益增长的需求同时也推动了芯片设计和AI专用计算设备的蓬勃发展 。 专用芯片的第一波浪潮是GPU的出现 , 其在90年代设计出来就是为了用于增强视频游戏图形处理 。 而非常巧的是 , GPU也非常适合现在AI应用中的数学计算 。
相比起GPU现在还有更专业的芯片 , 各个公司也正在致力于研究这些芯片 。 去年12月 , 英特尔就以20亿美元的价格收购了以色列公司HabanaLabs;而成立于16年的英国公司Graphcore在2019年的估值为20亿美元;最大的GPU制造商Nvidia等公司已对其芯片进行了重新设计来适应AI的计算需求;Google内部设计了自己的“张量处理单元”(TPU)芯片;而中国科技巨头百度也已用上了自己的“昆仑”芯片 。 毕马威的阿方索·马龙认为 , 专用AI芯片的市场价值已达约100亿美元的规模 , 而到2025年预估能达到800亿美元 。
【FB最大模型训练一轮电费就好几百万,机器学习的训练成本难题】Graphcore的创始人之一奈杰尔·图恩表示:“计算机体系结构需要适应现在训练处理数据的方式 。 ”对于AI运算其最基础的特征可以说就是“并行” , 即将运算切分为很多小块同时进行运算 。 例如 , Graphcore的芯片有1,200多个单独的数字运算核 , 能连接在一起提供更多的算力 。 而加州的创业公司Cerebras采取了更极端的方法 , 每个芯片占用了整张硅片 , 每张硅片上能放置40万左右个核 。
除了并行 , 其他优化也很重要 。 Cerebras的创始人之一安德鲁·费尔德曼指出 , AI模型花费了大量时间来进行乘零操作 。 而因为这些计算结果总时零 , 所以其实很多都是不必要的 , 所以Cerebras的芯片就尽量避免执行这些运算 。 同时 , Graphcore的Toon先生说 , 与许多任务不同 , 现在AI并不需要超精确的计算 。 这也意味着芯片设计人员能通过减少运算所需的精度来节省能耗 。 (而计算精度到底能降到什么程度仍是个开放性问题 。 )
之后所有这些因素都能综合起来获得更大提升 。 Toon就认为Graphcore当前的芯片效率是GPU的10到50倍 。
现在类似的创新变得越来越重要 , 因为对算力需求激增正赶上摩尔定律逐渐失效的时候 。 现在缩小芯片变得越来越困难 , 而且带来的收益也越来越小 。 去年 , Nvidia的创始人黄仁勋直言不讳地说:“摩尔定律失效了” 。
量子解决方案和神经形态方案
因此 , 现在研究人员还在寻找更多的解决方法 。 其中一种是量子计算 , 利用量子力学的反直觉特性为某些类型的计算进行大幅提速 。 关于机器学习的一种思考角度是将它看作是一个优化问题 , 而计算机试图在数百万个变量中进行权衡从而求出尽可能最小值 。 微软量子系统部门负责人KrystaSvore说 , 一种称为格罗弗算法的量子计算技术具有巨大的提速潜力 。
另一种想法是从生物学中获得启发 , 认为当前的蛮力方法并不是唯一的方法 。 当Cerebras的芯片运行起来 , 功耗大约为15kw , 足以为数十座房屋供电(相同数量GPU能耗更多) 。 而相比起来 , 人脑消耗能量就只有大概20w , 只有前者的千分之一 , 而人脑在许多方面都比硅芯片更聪明 。 因此 , 英特尔和IBM等公司正在研究“神经形态”芯片 , 希望设计出更能模仿生物大脑神经元电行为的组件 。
但到目前为止 , 这两条路都还很遥远 。 量子计算机在理论上相对容易理解些 , 但尽管有谷歌 , 微软和IBM等技术巨头投入数十亿美元 , 实际搭建却仍是个巨大挑战 。 而神经形态芯片虽然是用现有技术构建的 , 但让设计人员很气馁的是 , 就连神经科学家都还不怎么了解大脑究竟在做什么以及怎么做到的 。
这意味着 , 在可预见的未来 , AI研究人员将不得不继续尽可能地压榨现有计算技术性能 。 而Toon先生对此还是很乐观的 , 他认为通过更专业硬件以及调整现有软件让训练更快 , 也还是能带来很大收益 。 为了说明这个新领域的发展 , 他用电子游戏打了个比方:“现在我们已超越了乓(Pong) , 可能到了吃豆人 。 ”
没有钱来进行训练的穷炼丹师们理所当然地希望他说的是对的 。
相关报道:
https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem
推荐阅读
- 凉茶|凉茶最大的问题不是添加西药,而是冒充饮料
- 健康广东|8月18日广东疫情最新通报:广州深圳新增多少病例
- 被指“双标”特斯拉无奈服软 拼多多是最后赢家吗?
- 陕西卫健委|8月18日陕西疫情最新通报:新增2例境外输入确诊病例
- 最强蜗牛七夕活动奖励、兑换及全方位玩法攻略汇总
- 最强蜗牛8月可用密令全攻略
- 警告!|美国死亡谷气温飙升至54.4℃或打破百年来世界最高温纪录
- IT|研究概述新冠患者何时传染性最强
- 炉石传说:标准卸手牌最快的卡组?加丁黑眼自残园好快的剑
- 旅行路上阿|成都反差最大景区,一边是游客专属一边本地人最爱,门票相差4倍
