2023年,是AI人工智能技术全面爆红的一年 。
以ChatGPT、GPT-4、文心一言为代表的AIGC大模型,集文本撰写、代码开发、诗词创作等功能于一体,展现出了超强的内容生产能力,带给人们极大震撼 。
作为一个通信老司机,除了AIGC大模型本身之外,小枣君更加关注的,是模型背后的通信技术 。到底是一张怎样的强大网络,在支持着AIGC的运转?此外,AI浪潮的全面来袭,将对传统网络带来怎样的变革?
█ AIGC,到底需要多大的算力?
众所周知,数据、算法和算力,是人工智能发展的三大基本要素 。
文章插图
前面提到的几个AIGC大模型,之所以那么厉害,不仅是因为它们背后有海量的数据投喂,也因为算法在不断进化升级 。更重要的是,人类的算力规模,已经发展到了一定程度 。强大的算力基础设施,完全能够支撑AIGC的计算需求 。
AIGC发展到现在,训练模型参数从千亿级飙升到了万亿级 。为了完成这么大规模的训练,底层支撑的GPU数量,也达到了万卡级别规模 。
以ChatGPT为例,他们使用了微软的超算基础设施进行训练,据说动用了10000块V100 GPU,组成了一个高带宽集群 。一次训练,需要消耗算力约3640 PF-days(即每秒1千万亿次计算,运行3640天) 。
一块V100的FP32算力,是0.014 PFLOPS(算力单位,等于每秒1千万亿次的浮点运算) 。一万块V100,那就是140 PFLOPS 。
也就是说,如果GPU的利用率是100%,那么,完成一次训练,就要3640÷140=26(天) 。
GPU的利用率是不可能达到100%,如果按33%算(OpenAI提供的假设利用率),那就是26再翻三倍,等于78天 。
可以看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响 。
那么问题来了,影响GPU利用率的最大因素,是什么呢?
答案是:网络 。
一万甚至几万块的GPU,作为计算集群,与存储集群进行数据交互,需要极大的带宽 。此外,GPU集群进行训练计算时,都不是独立的,而是混合并行 。GPU之间,有大量的数据交换,也需要极大的带宽 。
如果网络不给力,数据传输慢,GPU就要等待数据,导致利用率下降 。利用率下降,训练时间就会增加,成本也会增加,用户体验会变差 。
业界曾经做过一个模型,计算出网络带宽吞吐能力、通信时延与GPU利用率之间的关系,如下图所示:
文章插图
大家可以看到,网络吞吐能力越强,GPU利用率越高;通信动态时延越大,GPU利用率越低 。
一句话,没有好网络,别玩大模型 。
█ 怎样的网络,才能支撑AIGC的运行?
为了应对AI集群计算对网络的调整,业界也是想了不少办法的 。
传统的应对策略,主要是三种:Infiniband、RDMA、框式交换机 。我们分别来简单了解一下 。
Infiniband组网
Infiniband(直译为“无限带宽”技术,缩写为IB)组网,搞数据通信的童鞋应该不会陌生 。
这是目前组建高性能网络的最佳途径,带宽极高,可以实现无拥塞和低时延 。ChatGPT、GPT-4所使用的,据说就是Infiniband组网 。
如果说Infiniband组网有什么缺点的话,那就是一个字——贵 。相比传统以太网的组网,Infiniband组网的成本会贵好几倍 。这项技术比较封闭,业内目前成熟的供应商只有1家,用户没什么选择权 。
- RDMA网络
RDMA的全称是Remote Direct Memory Access(远程直接数据存取) 。它是一种新型的通信机制 。在RDMA方案里,应用程序的数据,不再经过CPU和复杂的操作系统,而是直接和网卡通信,不仅大幅提升了吞吐能力,也降低了时延 。
文章插图
RDMA最早提出时,是承载在InfiniBand网络中的 。现在,RDMA逐渐移植到了以太网上 。
【到底什么样的网络,才能带得动AIGC?】目前,高性能网络的主流组网方案,是基于RoCE v2(RDMA over Converged Ethe.NET,基于融合以太网的RDMA)协议来组建支持RDMA的网络 。
推荐阅读
- 结对编程的十个场景
- TypeScript 程序员晋级的 11 个必备技巧
- 虚拟现实在工作场所的未来
- 如何检查前端项目中未使用的依赖包?
- 如何使用ELK进行主机黑客攻击企图的检测
- AI十年浮沉,与改变命运的大模型
- “第一批被AI抢走饭碗的人”:我们不该被嘲笑
- 让AI当你的办公助手,还差几步?
- AIGC产品的版权争议有“解药”吗?
- 如何使用Rust构建基本的HTTP Web Server?