Intel|Intel三代可扩展至强哪里强?唯一如此聪明

对于服务器数据中心市场 , 一般人关注不多 , 但因为市场和应用的需求 , 这里往往是最新计算技术的前沿阵地 , 了解它就能一窥未来发展趋势 , 而在这块庞大的市场上 , Intel无疑是霸主一般的存在 , 也是行业发展的风向标 。
不久前 , Intel发布了代号Cooper Lake的第三代至强可扩展处理器 , 其变化可能没有很多人期待的那么高 , 也存在一些误解 , 这里就再和大家说道说道 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

首先需要强调的一点就是 , 大家往往习惯性地把Intel定义为一家处理器企业 , 但其实很久以来 , 处理器只是Intel庞大产品和技术家族的一部分 , 可以说是最核心的存在 , 但绝不是唯一的 , 也不能完全展现Intel的实力和愿景 。
一方面 , Intel早就提出了制程工艺、架构、内存存储、互连、安全、软件这六大技术支柱;另一方面 , Intel面向数据中心提供的更不仅仅是CPU处理器或者SSD固态盘 , 还有以太网、硅光、傲腾内存、SSD、凌动、FPGA等等 , 组成了一个有机的整体 , 而这种完整的产品线组合 , 在业内也是首屈一指的 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

回到至强 , 这一品牌诞生已有20多年历史 , 早已成为数据中心计算力的代名词 , 而在2017年 , Intel打造了至强可扩展的概念 , 最新发布的Cooper Lake就是第三代产品的一部分 , 面向四路和八路市场 , 下半年还会有同样隶属于第三代的Ice Lake , 针对单路和双路市场 , 并首发支持PCIe 4.0 。
明年则有第四代Sapphire Rapids , 支持更新的PCIe技术 。
Cooper Lake三代至强可扩展处理器是业界唯一集成AI加速的处理器 , 专为当今内置AI人工智能的数据密集型服务而设计 , 重点进一步升级了DL Boost深度学习加速技术 , 同时深度学习加速架构下的VNNI神经网络指令支持创新的bfloat16数据格式 。
DL Boost、bfloat16相结合 , 新平台相比上一代在做图像分类处理的时候 , 计算性能可以提高1.93倍 , 这是一个非常显著的进步 。
同时 , 针对云计算应用、企业应用等多样性场景 , Cooper Lake还支持第二代Speed Select技术 , 方便用户灵活配置系统 , 满足业务需求 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

如下是Cooper Lake的四路系统架构图 , 四颗处理器通过UPI总线和全连接拓扑结构进行互连 , 而且通道数比上代翻了一番 , 每颗处理器都支持六路QPI , 这样和其他三颗处理器的任意一颗都是双路互连 , 带宽更充裕 , 有利于支持更多的CPU核心、更大的内存、更高的计算速度 。
内存方面支持6个通道 , 四路平台就是24个 , 八路则可达48个 , 而且频率也有3200MHz , 容量方面则支持16GB颗粒 , 单条可以做到RDIMM 64GB、LPRDIMM 256GB , 再搭配傲腾持久内存的话每路系统最大内存容量就高达4.5TB , 四路就是18TB , 八路则是36TB 。
芯片组搭配升级的C620-A , 支持更多USB、SATA、PCIe扩展 , 并集成ME平台管理技术 , 支持丰富的RAS , 处理器、内存、PCIe设备等的错误都可以及时隔离、诊断 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

人工智能方面 , 一代可扩展至强支持AVX-512指令集 , 要经过与FP32浮点数据格式的深度学习 , 二代支持DL Boost、VNNI矢量神经网络指令集 , 支持INT8整数数据格式 , 而第三代升级到了bfloat16数据格式 , 大大提升了AI训练和推理能力 。
FP32、INT8、bfloat16有什么区别呢?
INT8是每个数据使用8比特保存 , 包括1个符号位、7个尾数 , 就像图中比较模糊的小猫照片 , 细节缺失 , 但是对AI训练和推理而言计算效率非常高 , 当然精度游明显损失 。
FP32包含1个符号位、8个指数、23个尾数 , 就像异常清晰的小猫照片 , AI训练和推理精度非常高 , 但是效率低 , 速度慢 。
bfloat16则是折中选择 , 总共16个比特 , 包括1个符号位、8个指数(取值范围2的256次方)、7个尾数(取值范围2的128次方) , 对于绝大多数AI模型可以兼顾精度和速度 , 就像略有压缩的小猫照片 , 人眼基本看不出细节丢失 。
根据实测 , VNNI搭配bfloat16相比上代FP32训练性能提高了93% , 推理性能则提高了90% 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

三代可扩展至强还有一个很重要但很容易被忽视的技术 , 那就是SpeedSelect(SST) , 在上代基础上大大拓展 , 包含SST-PP、SST-CP、SST-BF、SST-TF四种功能模式 。
其中 , SST-PP(Performance Profile)是指CPU的供电和散热的边界条件确定后 , 可以根据业务不同需求 , 选择允许使用多少个CPU核心 , 并设置对应的频率 , 而在其他场景下可以开关不同的核心、设置不同的频率 。
比如一款20核心、TDP 150W的处理器 , 可以设置开启全部20个核心 , 频率跑在2.5GHz , 适合对多线程敏感但不需要特别高频率的场景 , 而如果需要更高单线程性能了 , 则可以开启14个核心 , 频率提高到2.9GHz 。
SST-BF(Base Frequency)、SST-TF(Turbo Frequency)可以设置不同的核心运行在不同的频率 , 比如高优先级的业务使用部分核心运行在睿频加速频率上 , 而低优先级的业务则只跑基础频率 , 在不超过整体供电和散热的情况下 , 可以让部分核心的温度更低 。
SST-CP(Core Power)是在CPU负载非常高、接近供电和散热极限时 , CPU会做一定的降频 , 来保护CPU和整个服务器平台 。以往这种降频保护都是暴力地对所有核心无区别一起降频 , 选择则可以优先选择让执行低优先级任务的核心降频 , 保证高优先级业务不受影响 。
【Intel|Intel三代可扩展至强哪里强?唯一如此聪明】这四种SST技术结合 , 一台服务器就可以更好地完成更多的工作 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

除了CPU处理器 , Intel还有这从软件到硬件的完整产品系列 , 硬件上有CPU、GPU、FPGA、AI芯片等各种处理器 , 其中AI芯片包括Movidius视觉处理器、Habana深度学习训练和推理芯片 , 还有固态硬盘、傲腾持久内存 , 而软件解决方案则有One Intel、OpenVINO、精选解决方案等等 , 可以给客户一个非常完整的产品组合 。
总的来说 , 人工智能和数据分析将是数据中心未来10年的主要工作负载 , 而第三代至强可扩展处理器就是为了这两类应用重点优化 , 支持四路、八路服务器平台 , 植入对人工智能的优化 , 支持bfloat16数据格式 , 为用户提供最大的价值 。
Intel|Intel三代可扩展至强哪里强?唯一如此聪明
文章图片

 


    推荐阅读