在人工智能芯片战场追逐 GPU 背影的英特尔
环顾历史名将如拿破仑、隆美尔 , 乃至波斯湾战争的美国陆军将领 , 一谈到「攻势」 , 几乎无不强调「追击」的重要 , 让敌军毫无站稳脚跟巩固和重组的机会而一泻千里 。

文章图片
反过来说 , 当这简单道理套用到商业竞争 , 意义就不外乎「产品如果无法准时到位(TimeToMarket)」 , 特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域 , 或像半导体这种成本和售价会随技术演进快速滑落的产业 , 很可能一下子就被竞争对手一举冲垮 , 让产品开发工作左右为难 , 无法建立一条稳固的市占率防线 , 接着陷入恶性循环 , 难以翻身 。
2016年3月5日:nVidia发表「总算摆脱了4年的台积电28纳米制程」、推进到台积电16纳米和三星14纳米Pascal , 支持FP16半精确度浮点、8位元整数与相对应的内积向量指令(VectorDotProduct) , 也具备NVLink连接8颗GPU的延展性 , 踏出nVidiaGPU进入人工智能应用的第一步 。

文章图片
2016年5月GoogleI/O:Google发表第一代推论用的第一代TPU 。

文章图片
2016年夏天:英特尔并购「声称产品性能将比GPU高至少10倍」的Nervana , 就为了跟nVidiaGPU竞争 。
2016年11月17日:英特尔公开Nervana代号LakeCrest的初步成果 , 但制程仍停留在台积电28纳米 , 且过没多久就因nVidia推出Volta而失去意义 。

文章图片
2017年3月29日:nVidia发表采用TegraX2的「嵌入式人工智能运算装置」JetsonTX2 , 严格说来也算是nVidiaGPU应用的延伸 , 但早从2014年4月底就出现的Jetson产品线 , 怎么看都有一股「几年来替进攻手机平板都以失败收场的Tegra系统单芯片找出路」的味道 。

文章图片
2017年5月GoogleI/O:Google继续「按表操课」发表支持浮点运算(Bfloat16浮点格式)、可同时用于训练和推论的第二代TPU 。

文章图片
2017年6月21日:nVidia公开台积电12纳米制程「原本产品时程表并没有」的Volta , 内建640个TensorCore(张量核心) , 可执行4×416位元浮点乘积和 , 应用于特征识别的卷积运算(ConvolutionalNeuralNetwork , CNN) , 这让Volta成为nVidia史上首款针对人工智能量身订做、兼顾「学习/训练」与「推论/预测」的GPU微架构 。

文章图片
Volta的训练效率高达Pascal的12倍 , 推论性能也达6倍 , 这让Nervana的「LakeCrest至少有GPU十倍」变得毫无意义 , nVidia也借由NVswitch打造出16颗GPU、数量为DGX-1两倍的DGX-2 , 英特尔只能重新设计产品 , 也一再延误开发时程 , 直到承诺2019年底推出新芯片 , 届时距离并购案已超过3年 。

文章图片
2017年8月14日:AMD发表「早就简报讲很久」的Vega(GlobalFoundry14纳米制程) , 支持FP16/INT16/INT8包裹式(Packed)计算 , 并锁定FP16与INT8精度 , 新增约40个新指令 , 也为影像匹配此类应用 , 提供SAD(SumofAbsoluteDifferences , 绝对误差和算法)指令 。 AMD当然也会宣称「拥有完整的SoftwareStack」 , 至于成效如何 , 就请各位自由心证 , 笔者不予评论 。

文章图片
2017年11月8日:来自AMD的RajaKoduri空降英特尔并担任资深副总裁 , 宣示打算「砍掉重练」整个绘图技术 , 抛弃对x86指令集相容性的执念 , 从头到尾打造货真价实GPGPU , 2019年3月公布GPU架构的称呼「Xe」和一个让人摸不着头绪、看起来很像「在所有硬体平台包含FPGA都能跑的OpenCL」的「软件堆叠」OneAPI , 就是最后的解答 。

文章图片
2018年5月GoogleI/O:Google再接再厉 , 发表整体性能和规格是前代两倍的第三代TPU , 不过依然还是Google自研自用就是了 。

文章图片
2018年7月23日:从Larrabee开始挣扎超过十年 , 英特尔总算完全放弃「超级多核心x86处理器绝对无所不能」的南柯大梦 , 宣布放弃XeonPhi产品线 。 有趣的是 , 停产通知提到「市场对产品的需求已转移到其他英特尔产品」 , 但这些产品并不存在于英特尔产品线 , 没有任何产品提供类似XeonPhi的性能和功能 , 这些需求「转移」到nVidia的机率可能还高一点 。
【在人工智能芯片战场追逐 GPU 背影的英特尔】笔者2017年底就预期XeonPhi的处境非常危险 , 「x86义和团」的最后碉堡即将失守 , 不幸一语成谶 , 早知就去买彩票了 。

文章图片
2018年7月26日:Google发表适用物联网、「可以在消耗极少资源和能源的情况下提供绝佳效能 , 因此能够在边缘部署高精确度AI」的边缘推论用TPU , 这也让GoogleTPU踏出自家资料中心 , 与一群盘据半导体市场已久的豺狼虎豹捉对厮杀 。

文章图片
2018年8月:nVidia发表采用Xavier系统单芯片的JetsonXavier , 同时应用于边缘AI运算及自动驾驶系统 。

文章图片
2018年9月20日:采用台积电12纳米制程的Turing , 融合两者之长 , 结束了短暂的「消费型」(Pascal)和「专业型」(Volta)分立局面 , TensorCore增加了新INT8和INT4精度模式 , FP16半精度能完整支持经常用到的矩阵融合乘加(FMA)运算 。

文章图片
此外 , TensorCore也不再只是「限定专业应用」 , 可用来执行消除混叠的深度学习程式(深度学习超级采样 , DLSS) , 利用先前向执行NeuralGraphicsFramework的超级电脑 , 喂食游戏画面进行训练神经网络的学习成果 , 渲染出接近64倍取样的画面滤镜 , 再套用回玩家的游戏画面 , 柔化画面锯齿边缘 。

文章图片
2019年1月7日:AMD发表采用台积电7纳米制程的Vega , 芯片大幅缩小 , 性能大幅提升 , 然后我们现在也知道为何AMD初代7纳米制程APU的绘图核心还是Vega , 不是更新一代的Navi了 。

文章图片
2019年3月19日:nVidia再次发表「边缘AI超级电脑」JetsonNano , 也开始有开发者比较与GoogleEdgeTPU的优劣胜负 。

文章图片
2019年5月21日:nVidia利用Anandtech的报道 , 倒打英特尔一耙 , 在官方博客狂吃英特尔某篇官方文章《IntelCPU在推论胜过nVidiaGPU》的豆腐 。 预计2020年第二季推出的英特尔下一代Xeon平台Whitley , 首款CPUCooperLake(还是继续挤14纳米制程牙膏)会支持Bfloat16浮点格式 , 届时各位可以期待nVidia会不会再如法炮制一番 。

文章图片
2019年7月7日:AMD「扩大制程领先优势」发表台积电7纳米制程的Navi , 重点集中在结束漫长GCN时代的全新RDNA(RadeonDNA)SIMT执行单元结构 , 在人工智能相关并无着墨 , 但业界盛传第二代RDNA将支持GoogleTensorFlow的Bfloat16浮点格式 , 也有人在担心搞不好这又会让AMD显示卡再被一大票数位货币矿工抢得一干二净 , 再度上演有钱也买不到显卡之戏码 。
2019年8月:nVidia「持之以恒」继续在HotChips谈论自家多芯片可扩展式推论芯片研究案 , 意思就是nVidia故意宣示除商品外 , 还有额外的前瞻性技术研发工作就对了 。
2019年夏天 , 英特尔看似开心的跟百度宣布合作 , 并购Nervana满3年的人工智能芯片 , 看似前程似锦 , 连潜在客户都谈好了 。

文章图片
2019年11月8日:NVIDIA宣布推出「全球尺寸最小的边缘AI超级电脑」JetsonXavierNX , 不知不觉中 , 在这几年内 , nVidia的Jetson家族已枝繁叶茂 。

文章图片
2019年11月13日:英特尔总算「使命必达」准时在2019年底推出NervanaNNP产品线 , 包含深度学习导向的NNP-T1000(SpringCrest , 性能号称是LakeCrest的3~4倍)与推论专用的NNP-I1000(SpringHill) , 宣称样品已经送到客户(百度、Facebook)手上 , 不只现场实际较量NNP-I1000和nVidiaT4 , 可用不到2倍数量达成3.68倍的性能 , 也同时宣布2020年推出「20倍边缘推论性能」、源自2016年某金额不明并购案的Movidius体系产品 。

文章图片
但短短一个月后 , 2019年12月16日 , 英特尔宣布以20亿美元收购以色列AI芯片新创公司HabanaLabs , 瞬间风云变色 , 2020年2月就传出英特尔将「部分放弃Nervana」、停止NNP-T1000开发的消息 , 但有鉴于NNP-I1000本质上根本就是「纯正英特尔血统」的产物 , 这也意味着Nervana并购案完全失败了 。
「刚刚好」整件事件的所有参与演员:现场的英特尔、HabanaLabs、坐在板凳一旁看戏的AMD与nVidia , 都是2019年IEEEHotchips31的台上贵宾(大概因家大业大格局大 , 活动的餐点饮料包含酒类据说都由英特尔赞助买单) , 我们就来看看 , 英特尔耗费三年多做出来的成果 , 以及瞧瞧NNP-T1000为何被闪电腰斩的可能原因 。
毕竟现在这票所谓人工智能深度学习等的新兴应用 , 无论从硬件架构到资料处理格式到框架到应用程序函式库等等 , 很多部分都是高度定制化 , 少有业界共通的公开比较基准 , 单纯比较数字「赛猪公」的意义并不大 , 笔者也不会在这里仔细介绍英特尔两颗芯片的技术细节 。
但通过规格比较 , 可清楚看到两件事实:
SpringCrest和SpringHill根本是两个完全不同的技术体系 , 前者完全继承Nervana , 后者则是根正苗红的「英特尔本家」 , 大量引用现有IceLake技术 。
Nervana的预设对手就是nVidia的旗舰级GPU , 连晶圆代工业者都是台积电 。
NervanaNNP-T1000惨遭杀害 , 究竟有哪些可能的凶手?
成本太高:都这个时候了 , 还在台积电16纳米制程?HabanaLabs目前两颗芯片也都是台积电16纳米!这理由不合逻辑 。
政治因素:英特尔不愿意看到重要的产品交给台积电生产?可是这件事不是很久以前该知道了吗?HabanaLabs也是台积电生产啊 , 所以这也不合理 。
客户不满:难道先期导入的客户并不满意产品的实际表现?
需要客户:HabanaLabs已抢到「超大规模的客户」 , 甚至「抢走英特尔手上煮熟的鸭子」 , 所以才有20亿美元的并购价值?
软件不行:手上可掌握的软件资源和「生态系统」技不如人?
规格不利:HanabaLabs的推论芯片Gaudi可支持原生的以太网络界面走RDMA , 这难道对大型云端客户来说 , 算是杀手级的规格优势?
总之 , 只有英特尔和时间才会告诉我们谁是真正的凶手 , 也很有可能真相永远不会大白 。
到头来 , 从Nervana到HanabaLabs , 不论训练还是推论 , 头号假想敌依旧是nVidia的GPU , 依然还是Volta和Turing , 连比较图的颜色都刻意挑「nVidia绿」 。
但说到英特尔并购公司这件事 , 半导体制程优势开始崩溃 , 刚好就是宣布要「从PC公司转型为驱动云端计算和数以亿计智能互联计算装置」 , 也差不多是「最后的英特尔x86微架构」Skylake上市时 , 接着一直花大钱「生气乱买公司」才开始的 。
2015:Altera167亿美元 。
2016:Nervana3.5亿美元 。
2016:Movidius金额不明 。
2017:Mobileye153亿美元 。
2019:HabanaLabs20亿美元 。
这样一路看下来 , 似乎瞬间明白了什么 。
编辑:AI智慧
推荐阅读
- 王者荣耀:吕布最近强度凸显,玩家认为攻速太高需要尽快削弱,你赞同吗?
- LOL:粉丝急了!GRF三人结束合约,Tarzan却不在名单内
- 西塞回忆在利物浦时的重伤:骨头断了很多根,差点被截肢
- 20双凉拖,超A超性感
- 人在落魄时,别急着求人,做好这些事才有翻身的机会
- 余生不长,和谁在一起,真的很重要
- 在路上遇见海马新型紧凑型SUV!美观价值不逊于奔腾T77,1.6T双离合!
- 颜值在线的它,东风风行T5L表现如何?网友:“纸老虎”
- 新华网河南师范大学青年学子在战“疫”中绽放青春
- 看了iPhone 12曝光的信息后感叹:iPhone 11再见
