苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?

_本文原始标题:苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
9月16日 , 苹果秋季新品发布会如约而至 , 但传闻中的iPhone12却要等到下个月才能见到 。 发布会仅上新了两款智能手表和两款iPad平板电脑 , 新品iPadAir4则搭载了最新的处理器芯片A14Bionic(仿生)处理器 。 这几款新产品香不香另说 , A14Bionic处理器却成为了此次发布会的最大亮点 。
根据苹果的介绍 , A14Bionic处理器是苹果首款采用5nm工艺打造移动设备芯片 , 晶体管数量相较于A13Bionic处理器的7nm芯片增加了近40% , 晶体管数量达到了惊人的118亿颗 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

仅凭工艺制程的提升 , A14在性能和功耗表现上自然会有一定的提升 。 官方宣称 , 在性能比较上 , CPU提升40% , 全新GPU构架提升30% 。 不过 , 让外界吐槽的是 , 这一数据是A14跟A12比较得出来的 。 这让A13情何以堪呢?
而根据苹果之前公布的数据 , A13相比A12在CPU和GPU性能上都提高了20% 。 因此 , 如果这两代的处理器性能指标测量标准一致的话 , 则A14的CUP性能仅比A13快了约16% , GPU性能仅比A13提升了约8.3% 。 可以说 , 如果排除掉5nm工艺本身所带来的改进 , 相对A13来说 , A14在CPU和GPU核心本身性能上的提升其实并不高 。
不过 , 在AI算力上 , A14相比A13则有了非常大的提升 , 从之前的8核NPU直接翻倍提升到16核NPU 。 根据苹果的测试 , A14的AI运算能力也提升到了11.8万亿次 , 机器学习速度提升了70% , 机器学习加速器则令运算速度快达10倍 , 将各种机器学习应用的性能表现提升至全新水平 。
如果留意就会发现 , 苹果从A11到A14 , 每一次在AI运算性能上都做了大幅地提升 。 尽管我们看到苹果并不总是以AI芯片或者AI智能终端为噱头来做宣传 , 但事实上苹果iOS系统上已经遍布各种AI应用或者功能 , 对AI算力增长提出了超高的需求;与此同时 , 安卓阵营高端芯片厂商在AI芯片上面的频频发力 , 正在缩短甚至追上与苹果的A系列芯片的差距 , 这些可能都是构成苹果移动终端芯片的AI算力爆发式增长的缘由 。
从A11到A14 , 苹果的AI算力进化
2017年 , AI已经成为大众热议的话题 。 此时没有一家终端芯片厂商不是以AI作为产品的新噱头 , 但真正能在AI芯片方面拿得出手的厂商也没有几家 。 这一年华为的麒麟970横空出世 , 抢到了首发 。 10天后 , 苹果的A11Bionic也正式发布 , A11采用10nm工艺制程、六核CPU、自研三核心GPU设计 。
之所以可以称为“AI芯片” , 就在于A11首次搭载神经网络引擎处理器单元(NeuralNetworkProcessingUnit , NPU) , 并且在新的神经网络引擎上苹果发布了第一代CoreML , 运用本地化人工智能加速器进行机器学习 。
A11搭载的NPU采用双核设计 , 每秒运算次数6000亿次 , 主要处理机器学习任务 , 能够识别人物 , 地点和物体 , 主要针对的应用是iPhone新推出的人脸识别锁屏FaceID以及人脸关键点追踪Animoji , 且NPU算力并不对第三方应用开放 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

苹果A11处理器的标志意义 , 除了成为苹果自主研发程度最高的一代处理器之外 , 其实也和华为一起真正地打开了移动终端的AI时代 。 此后几乎所有手机厂商都把AI运算能力当作宣传卖点和升级点 。
苹果在2018年推出的A12Bionic , 采用了台积电当时最新的7nm工艺制程 , 苹果自研的Fusion架构 , 而神经网络引擎从双核直接升级到八核 , 能够实现每秒5万亿次计算 , 比较上一代有了8.3倍的提升 。 第二代神经网络引擎才是在算力和性能上能够实现更多AI功能 。 另外 , A12采用了全新的智能HDR算法以及coreML带来的图像识别、第三方APP垃圾信息处理等功能 , AI应用开始普及 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

2019年发布的A13Bionic处理器 , CPU、GPU和NPU的核心数都与A12相同 , 只是采用了台积电升级版7nm工艺 , 集成85亿个晶体管 , 性能、功耗都有了一定提升 , 而神经网络引擎的峰值算力提升到每秒6万亿次计算 , 提升幅度并不显著 , 同样是为面容ID、三摄系统、AR类APP等机器学习应用提供算力支持 。 不过值得一提的是 , 通过在CPU中加入2个机器学习加速器 , 让CPU可以达到每秒1万亿次的矩阵数学运算 。 同时 , CoreML3可以与机器学习控制器配合 , 自动为CPU、GPU和NPU分配任务 。
这次发布的A14处理器芯片上 , 神经引擎核心数再次翻倍达到16个 , 每秒运算次数达到了惊人的11.8万亿次 , 机器学习速度提升了70% , 机器学习加速器则令运算速度快达10倍 , 将各种机器学习应用的性能表现再次大幅提升 。
AI应用的“猛虎” , 苹果AI芯片大规模升级的内因
根据资料 , 早在2014年 , 苹果已经在新一代架构芯片Soc的开发中加入专门的AI芯片 。 而在此之前 , 苹果的AI算力是由“CPU+GPU”实现 , 其自主开发AI芯片的设计思路则是由CPU和GPU处理的AI任务转向由专门的AI芯片进行处理 , 最终将芯片集成到终端设备上 。
与此同时 , 随着苹果移动终端在拍照摄影、图形处理等应用上面越来越需要用到神经网络和机器学习、深度学习的算法运算 , 这些需求使得苹果开始考虑将AI应用的运算必须采用神经引擎这一专门定制的处理器单元来完成这些计算 。
2017年 , 苹果的神经引擎处理器正式落地 。
不过让外界惊讶的是 , 为何短短三年之中 , A系列芯片的AI算力得到了将近20倍的提升 , 远远超出Soc芯片其他处理器的性能提升幅度?
一方面是CPU和GPU的性能 , 在现有的工艺制程进化和既定架构的约束上提升已经非常困难 。 随着半导体工艺从7nm向5nm、3nm工艺升级 , 难度会越来越大 , 而可预期的提升却可能并不显著 。 反而AI加速器还会有相当大的设计提升空间 。
另一方面是 , 终端应用对于动用CPU和GPU的需求正在达到一个用户的使用极限 , 因此也没有快速增长的需求 , 但是这些应用的AI算力需求则在大幅增长 。
如果对苹果iOS系统中的用到机器学习相关的功能和应用进行分析的话 , 我们看到最新两代的iPhone和iPad已然是一部各个部分和细节都在使用AI的终端了 。
在苹果终端的细节体验 , 已经有大量机器学习算法的加持 , 但相应的体验难以被用户察觉 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

比如 , 机器学习用于帮助iPad的软件区分用户在使用ApplePencil绘图时到底是不小心将手掌压在屏幕上还是有意提供输入的按压 。 或者是在监控用户使用习惯 , 以优化设备的电池寿命和充电频次 , 既可以改善用户在两次充电之间的时间 , 又可以保证电池的使用寿命 。
还有像iPhone的拍照 , 用户每次按下快门 , 设备会快速连续拍摄很多张照片 , 然后经过机器学习训练的算法会分析每个图像 , 并将其认为是每个图像的最佳部分合成为一个结果 。 也就是iPhone拍照的卓越效果很大程度是靠“计算”出来的 。 苹果正是通过iPhone中对图像信号处理器(ISP)和神经引擎的协同处理 , 才使得照片质量获得大幅提升 。
苹果在终端本地大幅提升神经引擎的运算能力 , 以及配合图形计算引擎和AI加速等功能 , 可以在移动终端中执行非常高难度的机器学习任务 。 比如在iPadPro上 , 通过神经引擎的计算能力 , 结合ProjectAero软件 , iPadPro能将PSD中创作的每一个图层以独立的AR对象呈现在屏幕上 , 每个图层都分离成一幕栩栩如生的景观 , 这对创作者来说相当具有吸引力 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

此外 , 苹果已经加入的显著的AI新功能 , 诸如机器学习在翻译、内置听写、输入预测、健康特性分析与预测上面 , 都需要大量的机器学习参与 。
而苹果选择在机器学习任务的本地化计算的另一大原因 , 可能是为了将数据留在本地 , 用以保护用户隐私 。 我们知道 , 机器学习的本质就是对海量数据进行学习 , 而数据的采集和分析一直是谷歌、facebook这些互联网公司的“原罪” , 作为承诺严格遵守用户隐私数据保护的苹果 , 自然要做出保证 , 尽量将机器学习算法所需要的用户数据留在用户的移动终端当中 , 但与此同时要保证AI算法的有效 , 就必须对终端芯片的AI算力引擎做出大幅提升 。
当然 , 苹果自身终端系统对于AI算力升级的要求 , 只是一只内生的吞噬算力的“猛虎” , 在外部竞争中 , 苹果还要面对一群实力强劲的“追龙” , 在AI算力提升上不断地应战 。
安卓阵营的“追龙” , 苹果AI算力快速升级的外因
苹果自研的A系列处理器芯片 , 一直以来以创新和高性能著称 , 虽然最近两年 , 安卓系的高端芯片 , 诸如高通的骁龙芯片、联发科Helio芯片、华为海思的麒麟芯片则大有追赶之势 。
如果抛去综合性能的讨论 , 但是在AI芯片算力上面 , 高通的骁龙处理器在性能上和数量上都已经有超过苹果A系列芯片的可能 。
【苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?】比如在2019年上半年手机AI芯片排行榜上 , 排名前十的智能手机AI芯片 , 其中前四名分别是高通骁龙855、苹果A12Bionic、联发科HelioP90和海思麒麟980 。 但值得关注的是 , 除了第二、三、四名 , 这份榜单中的其他位置都被高通骁龙芯片占据 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

与苹果采取专用NPU芯片来提供AI算力不同的是 , 高通的骁龙处理器采用了异构计算的方式 , 推出了自研的AI引擎 , 通过CPU、GPU和DSP(Hexagon处理器)组合相互配合 , 运行神经网络计算的效率 , 根据不同的应用场景来安排工作负载 。
而预计在今年年底发布的高通骁龙875 , 同样采用了5nm制程工艺 , 与7nm相比逻辑密度提高80% , 其基础性能较上代提升15% , 功耗降低30% 。 非常激进的是 , 高通这次采用了ARM的CortexX1超大核心设计 , 为“1+3+4”八核心三簇设计模式 , 其中1为CortexX1超大核心 , 3为大核 , 采用CortexA78 , 4为能效核心 。 据业界的预测 , 骁龙875无论在综合性能还是在AI算力上都有超越A14的可能 。
此外 , 高通通过AI引擎的的高、中端芯片布局 , 与不同的软硬件企业一起 , 从底层框架、硬件核心、软件等层面 , 将AI能力应用到了海量的移动终端和智能设备上 , 形成基于AI应用的合作生态 。
高通在AI算力上的激进演化以及在AI能力上的不断赋能 , 已经开始形成对于苹果的A系列芯片领导力的巨大威胁 。 在面临安卓阵营这些“追龙”对手如此“给力”的努力下 , 苹果自然也会有强大的外部动力来大幅升级自身的性能优势 。 就像骁龙875这样的性能怪兽的出现 , 始终会追在苹果身后 , 准备吊打苹果 。
苹果A系列芯片的三年AI进化:为何要大规模升级AI算力?
文章图片

反过来看苹果 , 其NPU的性能升级战略也并未显露颓势 。 根据专业人士的说法 , 目前 , 苹果A系列芯片上NPU占芯片总面积约为5% , 未来NPU的面积能够达到类似GPU占有的20%的面积的程度 , AI算力至少还有4倍的提升空间 , 此外还有提升算法和芯片之间的协同设计 , 同时通过CoreML的进化来加强不同AI模型的异构设计 , 同样可以发挥其他SoC芯片部分的潜在算力 。 总体来说 , 苹果在AI算力的提升上面还有巨大的增长空间 。
我们看到 , 苹果和安卓阵营在高端芯片厂商在芯片性能的升级 , 正在从CPU所引领的摩尔定律的赛场转向以AI算力增长为代表的新赛道上 。 而从AI算力的增长潜力来看 , 这一升级战在未来几年会更趋激烈 。
然而最可惜的是 , 这场终端芯片AI角逐赛里 , 未来会缺席一位来自中国的实力选手 。


    推荐阅读