AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世

机器之心报道
编辑:蛋酱、小舟、杜伟
历时5年 , 制程由14nm减至7nm , 更加重视AI推理性能 , IBM最新POWER10处理器将在商用领域打出一片天地 。
AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世
文章图片
在今年的HotChips2020会议上 , IBM正式宣布了新一代CPUPOWER10 。 作为Power9的继任者 , POWER10的处理效率是前者的三倍 , 同时又提供了更高的工作负载量和容器密度 。
【AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世】基于Power9处理器并使用NvidiaTeslaGPU作为加速器的Summit , 就是世界上最快的超级计算机之一 。 目前看来 , 继任者POWER10更加值得期待 。
POWER10的设计历时五年 , 拥有数百项新型以及正在申请的专利 。 早在2015年 , IBM、三星和IBM研究联盟的其他成员生产了第一批测试芯片 。 它的独特之处在于 , 这是IBM的首款商用7nm处理器 。
POWER10架构师WilliamStarke表示 , 单芯片模块产品最多不超过15个SMT8核心 , 双芯片模块产品最多不超过30个SMT8核心 。
AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世
文章图片
IBMPOWER系列芯片的发展路线图 。
制程由14nm缩减至7nm , 更加重视AI推理性能
吞吐量和功率效率的提升部分得益于硅制程技术 , 该技术使得POWER9中使用的14nmGlobalFoundries制程缩减为三星的7nmEUV 。 制程微缩使得IBM可以添加更多的核心和更多的缓存 。
设计方法也有重大更改 。 新的设计更加模块化 , 具有新的核心核心微架构和新的AI指令 。 POWER10还添加了更多的安全硬件 。 内存受到全内存加密保护 , 同时也没有降低速度 。
此外 , POWER10还为多租户(multi-tenant)云工作负载内置了「嘈杂的邻居(noisyneighbor)」保护功能 。 为了确保云工作负载的安全性 , 处理器支持安全的container 。 该架构通过其PowerVM虚拟机来管理程序和内存池聚合功能 , 以提升灵活性 , 通过PB级系统内存支持来处理各种工作负载 。
考虑到AI越来越重要 , IBM增加了对其他指令和数据类型的支持 。 处理器通过新的可扩展指令集支持Power的3.1版本 。 POWER10也意味着IBM更加重视CPU中的AI推理性能 。
IBM表示 , 推理处理中使用的矩阵数学函数可将性能提升10-20倍 。 缓存带宽上也有改进 , 以使SIMD单元获得数据 。
越来越多的企业将AI部署到实际应用AI的运营工作负载中 。 所以 , IBM仍将支持训练加速器 , 例如GPU和FPGA , 但AI部署基于的推理使用的是训练创建的模型 。
实际上 , AI的推理用途是能够产生商业实效的 。 IBM将在PCIe5.0版本上通过OpenCAPI支持加速器 。 IBM也放弃了英伟达的NVLink接口 , 因为PCIev5提供了足够的带宽 。
AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世
文章图片
POWER10的推理性能展示 。
其他技术细节
IBM在HotChips会议上展示了POWER10的大量技术细节 。 芯片面积为600平方毫米 , 具有180亿个晶体管 。 最多两个管芯可以被放入POWER10服务器的包中 。
每个芯片具有15个活跃的CPU核 , 其中管芯上还有一个用于提升成品率的备用核 。 此外 , 每个CPU可以支持8个线程(虚拟CPU) , 所以每个插槽中共计有120个线程 。
管芯上缓存内存总量为150MB以上 。 在接口设置上 , 下一代PCIExpressGen5具有64条通路 , 传输速度高达32GT/s 。
AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世
文章图片
IBMPOWER10芯片的技术规格细节 。
POWER10将会有两个版本 。 一个版本采用双管芯封装 , 时钟频率达到3.5GHz , 并且能够连接4个插槽 。 另一版本为单芯片插槽 , 有更高的时钟频率 , 为4GHz或更高 , 最多可连接16个插槽 。 每个插槽的PowerAXON接口都支持超过TB/s级的带宽 , 而开放式内存接口(OMI)可以支持相同的带宽 。
POWER10最重要的创新就是它能在整个POWER服务器机架上聚合内存 。 本地内存通过低延迟、高带宽的OMI进行连接 , 从而提供高达4TB的内存以及高带宽 , 而且没有一般高带宽内存的限制和费用 。 OMI还可被用于连接存储类内存(SCM) 。
PowerAXON接口可用于连接其他16个POWER10插槽 , 但也可以通过OpenCAPI连接到加速器 。 但它最有趣的用途是内存集群 。 本地处理器可以将其本地内存映射到相邻的处理器 , 因此需要更多内存的工作负载可以用相邻处理器的内存 , 而无需将页面交换到速度较慢的存储内存中 。 这种灵活性对于管理大型数据集来说至关重要 。 2PB的地址空间使之变为了可能 , 而且这种内存共享功能也可以扩展到企业级系统 。
从CPU设计到软件堆栈 , POWER10都展示出了IBM一直以来的企业级计算传统 。 更重要的是 , 它现在支持更多的AI功能、硬件辅助虚拟环境、更具扩展性的云部署以及更大的数据集处理 , 使其与现代企业和云工作负载更加相关 。
与此前的Power系列处理器一样 , POWER10也向OpenPower基金会的250多个成员开放许可和允许修改 , 包括谷歌、英伟达、Mellanox、Tyan等企业 。
参考链接:
https://www.forbes.com/sites/tiriasresearch/2020/08/17/ibm-POWER10-mega-chip-for-hybrid-cloud-is-revealed/?ss=ai#308a85a46d13
https://venturebeat.com/2020/08/16/ibm-unveils-POWER10-processor-for-big-data-analytics-and-ai-workloads/


    推荐阅读