大模型训练有多卷?揭开大模型算力之谜( 三 )


算力产业链结构图,来源:中国信通院
也就是说 , 在算力结构产业链中,上游企业主要完成实现对通用算力、智算算力、超算算力、存储和网络等算力服务的支撑资源的供给 。例如在大模型算力争夺战中 , 英伟达就属于上游算力基础资源供应方向行业供应芯片,而这其中浪潮信息等服务器厂商股票应声上涨也是受到了市场需求的影响 。
中游企业则以云服务商、新型算力服务提供商为主,他们的角色主要通过对算力的编排、算力调度、算力交易技术实现算力生产 , 并通过API等方式完成算力供给 。上述提到的算力服务商、腾讯云、火山引擎都处于这一环节 。而算力服务中游企业的服务化能力越强 , 对应用方的门槛越低,越有助于算力的普惠、泛在化发展 。
下游企业,则是依靠算力服务提供的计算能力进行增值服务生成制造的产业链角色,如行业用户等 。这部分用户只需要提出需求,算力生产者则根据需求去配置对应的算力完成用户下达的“算力任务” 。
这相比原来自己购买服务器搭建大模型算力环境,都更有成本和技术优势 。毕恺峰训练盘古气象大模型,应该是直接调用了盘古大模型的底层即华为云的高性能计算服务,那么其他大模型企业的使用算力或者说为算力付费的过程会有什么不一样吗?
算力商业模式迭代
ChatGLM是最早一批推出的通用大模型 , 以智谱AI的ChatGLM算力使用为例,据已经公开披露的消息,智谱AI使用了国内多家主流AI算力服务商 。“理论上应该所有的都有用了 。”知情人士表示,这其中可能还包括了国内主流的算力服务商/云服务商 。
按量计费和包年包月计费是当前算力服务的主流模式,使用需求大致有两种,一种是选择对应的算力服务实例,在某云服务商的官网界面,可提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器 。

大模型训练有多卷?揭开大模型算力之谜

文章插图
某算力服务商提供的高性能计算GPU显卡类型
另一种是选择对应的MaaS服务平台 , 在MaaS平台中对大模型进行行业性的精调 。以腾讯云TI-ONE平台按量计费刊例价为例,8C40G V100*1的配置,20.32元/小时,可用于自动学习-视觉、任务式建模、Notebook、可视化建模 。
当前行业也在推进算力服务的“算网一体化融合”,通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署 。例如,只要存一笔钱,存到算力网络里来,算力网络中的分区可以随意调用 。‌根据应用特点,选择最适合的分区、最快的分区、‌‌最具性价比的分区,然后根据时长计费,从预存的资金中把费用扣除 。
云服务商也是如此,算力服务作为云服务一项独特的产品 , 使他们迅速参与到算力产业链中来 。
工业和信息化部数据显示,2022年中国算力总规模达到180EFLOPS,位列全球第二 。截至2022年,中国算力产业规模已经达到1.8万亿 。大模型算力很大程度上加速了算力产业的发展 。
一种说法是,当下的算力服务 , 实际上是一种新型的“卖电”模式 。只不过根据分工的不同,一部分算力服务商可能需要帮助用户做更多系统性能调试、软件安装、大规模作业运行值守和运行特征分析,即一部分的最后一公里运维工作 。
随着大模型高性能计算需求的常态化,脱胎于云服务的算力服务,俨然快速进入大众视野,形成了独特的产业链和商业模式 。只不过在算力产业因大模型而爆发的伊始 , 高端GPU短缺、算力成本高企、抢“芯”形成了属于这个时代的独特风景 。
“‌现阶段卷的是供应链中谁能拿到卡,英伟达是目前整个行业的王者,所有的市场都被它控制,这是现状 。”知情人士评论 。目前境况仿佛是,在供不应求的情况下,谁能拿到卡 , 谁就可以去交付业务 。
但并不是所有人都在抢“卡”,因为短缺是暂时的,问题总会解决 。“做长期研究的人其实不抢 , ‌‌正常等着就行了,因为他不会死 。‌‌现在正儿八经抢卡的只有一批创业公司,他们要保证自己可以活到明年 。”上述人士称 。
在诸多不确定性中,算力成为一种服务是确定性趋势,算力服务商要做的是随时准备,在大模型回归理性、市场风向快速转变的时候 , 能未雨绸缪 。(注:应受访对象要求,周立军为化名)


推荐阅读