自动驾驶|我们拆了特斯拉芯片结论是快来反割特斯拉的韭菜( 三 )


GPU最初是为端游设计的 , 因为在游戏要应对大量数据的重复操作 , 所以GPU中有很多计算单元 , 逻辑运算设计相对简单 , 因此 , GPU适合那些计算量大 , 但没什么技术含量且要重复很多次的工作 。 相当于知识和经验一般的实习生 , 但胜在人多和活力旺盛 。
但在自动驾驶领域 , 两款“老芯片”面对了诸多新挑战 , 自动驾驶存在着非常大的算力和数据传输需求 , 通用型平台很难同时满足自动驾驶巨大算力和超低功耗的双重要求 。

此外 , 对自动驾驶这件事 , 传统的通用芯片没有任何人类的推理或认知能力 , 本质上他们只是些计算设备罢了 。 为应对未来更高级别自动驾驶 , 需要开发专用型芯片 , 以深度学习为基础的AI芯片成为方向 。
特斯拉自研的FSD芯片 , 就是一种类型的AI处理器 , 可以支持人工神经网络 , 也就是我们常说的深度学习 。
由于车辆是我们从车主那借来的 , 涉及核心封装部分无法深度拆解展示 , 好在特斯拉芯片结构早就被极客们挖了个底朝天 , 现成的素材有很多 , 这里我们借用一部分给大家展示 。
两个银色芯片处理器封装就是被特斯拉称为FSD的自动驾驶芯片
刚才已经说到了 , HW3.0三个处理单元中 , NPU负责深度学习和预测的神经处理单元 , 同时也处于最核心的地位 , 承担大部分深度学习计和算工作 。 而GPU+CPU更多的承担了打辅助的作用 。
特斯拉自动驾驶走的是摄像头视觉路线 , 这就需要芯片对图像数据的处理速度和数据量非常高 。
来自摄像头传感器的数据首先传输给图像信号处理器ISP , ISP的作用主要是将摄像头产生的三原色数据转化为图像信息 , 并存储在SRAM内 , 最后再交由神经处理单元NPU进行处理 。

图像信号处理器ISP大家都不陌生 , 他已经广泛应用到我们智能手机中 。 有时候同一个型号的摄像头 , 在不同手机上拍摄出的照片质量却存在明显差异 , 很大程度上跟各厂商使用的ISP的好坏有关 。
与手机不同 , 更多无损图像的输入处理对自动驾驶ISP提出了更高要求 。
ISP的作用是通过把图像信号进行转换、增强、压缩等一系列操作 , 产生一个完整的图像 。 举个例子 , 汽车动态驾驶中摄像头拍摄的照片往往有拖尾或重影的现象 , 这对于图像真实识别是不利的 。 而夜间驾驶下 , 摄像头为了捕捉更多的细节 , 就不得不提高曝光量 , 这样做法的弊处是会带来明显的噪点 。 而ISP的重要职责之一就是减少此类情况的发生 。
可以说 , 在自动驾驶系统中ISP的数据处理能力至关重要 。
自动驾驶|我们拆了特斯拉芯片结论是快来反割特斯拉的韭菜
本文图片

HW3.0搭载的ISP , 支持最高10亿像素的处理数据量 , 这已经达到了当前最快的消费级图像传输标准 。
在SRAM存储器层面 , HW3.0能提供32MB缓存和2TB/秒的带宽速度 , 要知道当前处理全自动驾驶的缓存带宽至少要达到1TB/秒 , 这意味着FSD使用的SRAM存储速度非常快 , 但同时也很贵 。
强大的SRAM容量也是特斯拉相对其他类型芯片的最大优势之一 。

以上这些硬核设备保障了NPU强大的数据处理能力 , 但总有一些其他数据是NPU无法完成的 , 这个时候就需要CPU和GPU来帮忙了 。
FSD中的部分后处理任务由GPU负责 , GPU内置的主频为1GHZ , 拥有600TOPS的运算能力 。 按照特斯拉的计划 , 未来FSD芯片里面GPU作用还会被继续削弱 。
对于那些不适合由NPU处理的通用任务 , 需要交给CPU来完成 , FSD芯片的CPU采用的是12个64位ARMCortexA72内核 , 运行频率为2.2GHZ , 三个四核CPU的并联架构使得HW3.0的CPU性能是HW2.5的2.5倍 。
实际上 , 目前特斯拉传感器产生的数据量远没有到达FSD计算平台算力上限 。
未来HW4.0时代摄像头和传感器还可以进一步升级 。 同时 , 作为协处理器的CPU可能更新至最新架构 , 地位极低的GPU没准会彻底消失 。


推荐阅读