大模型训练有多卷?揭开大模型算力之谜( 二 )
同时,算力卡资源调度也考验服务商的技术能力 。火山引擎华东互联网解决方案负责人徐巍告诉钛媒体,拥有算力卡资源只是一方面,如何将卡资源调度起来 , 真正投入使用,是更具考验的核心能力、工程能力 。“把一个卡拆成很多小卡,尽量能做到分布式的精细化的调度,可以更近一步降低算力成本 。”徐巍说道 。
网络也影响大模型训练速度和效率 。大模型训练动辄千卡,连接几百台GPU服务器所要求的网络速度极高,如果网络有点拥塞 , 训练速度就会很慢,效率很受影响 。“只要一台服务器过热宕机,整个集群都可能要停下来 , 训练任务要重启 。这对云服务运维能力与排查问题能力的要求非常高 。”邱跃鹏说 。
也有厂商另辟蹊径,从云计算架构过渡到超算架构也成为减少成本的一种方法 , 即在都能满足用户需求的情况、非量计算的任务及并行任务场景下 , 超算云大概是云超算一半左右的价格,然后再通过性能优化资源利用率可以从30%提高到60% 。
另外 , 也有厂商选择使用国产平台做大模型的训练和推理以替代一卡难求的 。“我们跟华为联合发布了讯飞星火一体机,能够在国产平台上自己做训练做推理,这是非常了不起的 。我特别高兴地告诉大家,华为的GPU能力现在已经跟一样,任正非高度重视,华为的三位董事到专班工作 , 现在已经把它做到了能对标的A100 。”创始人、董事长刘庆峰曾表示 。
上述方法,每一种都是一个相对大的工程,所以,一般企业是很难通过自建的数据中心来满足,很多算法团队都选择最专业的算力厂商来支持 。这其中并行存储也是很大的一种成本,以及技术能力,对应的故障率的保障等等也属于硬件成本的一部分 。当然甚至要考虑,IDC可用区电的成本,软件、平台、人员成本等运营成本等等 。
千卡级别的GPU集群才会有规模化效应,选择算力服务商,等于说边际成本为零 。中国工程院院士,中国科学院计算技术研究所研究员孙凝晖也曾在演讲中提出 , AIGC 带来 人工智能产业的爆发,而智能技术的规模化应用具有典型长尾问题,即具备强 AI 能力的强势部门 (网安、九院九所和气象局等)、科研院校与大中企业只占据算力需求主体的大约 20%,另外 80% 则均为中小微企业,这类主体受限于公司规模与预算 , 往往难以接入算力资源、或受限于算力的高昂价格 , 从而难以在AI时代浪潮中获得发展红利 。因此 , 要实现智能技术的规模化应用,让人 工智能产业既“叫好”也“叫座”,需要大量便宜、易用的智能算力,让中小微企业也能方便、 便宜地使用算力 。
而无论是大模型对算力的急切的需求,还是算力在应用过程中需要解决的各种难题,这其中都需要注意的一个新变化是 , 算力已经在市场需求和技术迭代的过程中,成为了一种新的服务模式 。
探索算力服务新模式
我们在抢的大模型算力是什么算力?解答这个问题,需要先从算力服务说起 。
从种类来讲,算力分为通用算力、智能算力和超算算力,而这些算力成为一种服务 , 是市场与技术双重驱动的结果 。
《2023算力服务白皮书》(以下简称“白皮书”)对算力服务的定义是,算力服务以多样性算力为基?。?以算力网络为链接,以供给有效的算力为目标的算力产业新领域 。
算力服务的本质,是通过全新计算技术实现异构算力统一输出,并与云、大数据、AI等技术交叉融合 。算力服务中不仅只有算力,它是算力、存储、网络等资源的统一封装,以服务形式(如API)完成算力交付 。
了解这一点就会发现 , 在抢芯片的 , 其实是很大一部分是算力服务提供方,即算力生产者 。真正在前端调用算力API的行业使用者,只需要提出对应的算力需求 。
据钛媒体App了解,从软件方角度,所有的软件交互产生的大模型使用分为三种 , 第一种大模型API调用,每家都有报价,按价结算;第二个是自有小模型,自己购买算力,甚至是自己部署;第三种,大模型厂商和云厂商合作,也就是专署云 , 按月支付 。“一般就是这三种,当前主要采用API调用,内部小模型自己做了算力调度平台 。”副总裁姚冬对钛媒体App说 。

文章插图
推荐阅读
- MySQL 5.7废止了?我们暂无计划
- 35岁大龄程序员,有哪些出路?
- 驾驶证学习证明的有效期,从何时开始算?
- 社保缴15年和25年待遇差别有多大?这笔账先算一算!
- 打耳洞实属医美,消费之前看好有无“三证”
- 社保断缴时间长怎么办?有什么影响?
- 大闸蟹公母有啥区别,哪个更好,你选对了吗?
- 有车一族要注意,这3个日期非常重要,一定要记清,避免扣分罚款
- 什么是葡萄酒的有机酸?有什么作用?
- 生活清洁小妙招全部,实用清洁小妙招有哪些