大模型训练有多卷?揭开大模型算力之谜

【大模型训练有多卷?揭开大模型算力之谜】

大模型训练有多卷?揭开大模型算力之谜

文章插图
图片来源@GPT生成
使用全球40年的天气数据,用200张GPU卡进行预训练,2个月左右的时间,训练出了参数量达亿级的盘古气象大模型 。
这是清华大学毕业3年的毕恺峰训练大模型的故事 。
不过,从成本上看 , 按照正常情况下,一张GPU 7.8元/小时计算,毕恺峰盘古气象大模型的训练成本可能超出200万 。这还是气象领域的垂直大模型,如果训练的是通用大模型,成本可能要翻百倍 。
有数据统计,中国当下10亿参数规模的大模型已经超百个 。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题 。算力成本高企 , 缺算力、缺资金也成为了摆在行业面前最直观的问题 。
高端GPU,有多缺?
“缺,当然缺,但是我们能有什么办法 。”某大厂高管被问及是否缺算力问题时脱口而出 。
这似乎已经成了行业公认的一道无解题,顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币,单台A100服务器的月租价格也飙到了5万-7万/月 。但是即便如此,高昂的价格依然可能拿不到芯片,一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历 。
一位云计算行业高管周立军也谈及类似的感受:“算力短缺的情况确实存在 。我们有很多客户都想要高端GPU资源,但能提供的也暂时无法完全满足广泛的市场需求 。”
某云服务商搭载A100的高性能计算集群售罄界面
事实证明,高端GPU的短缺短期内在全行业都无解 。大模型爆发,市场对算力的需求快速增长,但供给量增速远远没有跟上 。虽然算力供给长远来看一定会从卖方市场进入买方市场,但这个时间究竟要多久 , 也是个未知 。
各家都在盘算着自己手里有多少“货”(英伟达GPU),甚至用这个来判断市场份额 。比如手里如果接近1万张卡 , ‌‌市场总共是10万张卡 , 那份额就是10% 。‌‌“到年底保有量大概到4万,‌‌‌‌如果市场是20万的,‌‌那可能占20%的市场 。”知情人士举例表示 。
一边是买不到卡,一边是大模型训练门槛并没有业界烘托的那么容易“入门” 。上述提到,毕恺峰盘古气象大模型的训练成本可能超出200万 。但需要注意的是,毕恺峰盘古气象大模型是在盘古通用大模型的基础上训练出得垂直大模型,它的参数为亿级 。如果要训练一款十亿规模参数或者更大规模的通用大模型,那么成本可能要十倍、百倍往上加 。
“目前投资规模最大的是在训练,没有几十亿的资本投入,很难下场去持续做大模型 。”腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏透露 。
“跑得要快,至少在钱烧完之前能有成果拿到下一轮‘融资’ 。”一位创业者描述当下大模型“战况” , “‌‌这条路是条‌‌绝路 。‌‌如果你没有百亿千亿‌‌资金在后边撑着,‌‌很难走得通 。”
这一局面下,业内的共同观点是,随着大模型市场的角逐厮杀 , 市场也会从狂热到理性,企业也会随着预期的变化来控制成本、调整策略 。
无解下的积极应对
没条件,创造条件也要上——这似乎是大模型参与者中的多数心态 。而如何创造条件,应对真实存在的问题,各家也是方法颇多 。
由于高端GPU芯片短缺,且中国市场能用的GPU不是最新代次 , 性能通常更低一些,所以企业需要更长的时间来训练大模型 。这些公司也在寻找一些创新性的办法来弥补算力短板 。
其中一种方法是,使用更高质量的数据去做训练 , 从而提升训练效率 。近期,信通院牵头发布了《行业大模型标准体系及能力架构研究报告》,其中就提到了大模型数据层的评估 。报告建议,在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注 , 从而构建并严重高质量的数据集 。
除了通过高质量数据减少大模型成本,对于业界来说,提升基础架构能力,实现千卡以上稳定运行两周不掉卡 , 是技术难点也是构建可靠基础架构、优化大模型训练的方法之一 。
“作为云服务商,我们会帮助客户建立起稳定可靠的基础架构 。因为GPU服务器卡的稳定性会差一些,任何故障都会让训练中断,导致整体的训练时长增加 。高性能计算集群,可以给到客户更稳定的服务,也能相对减少训练时长、解决一些算力问题 。”周立军说 。


推荐阅读