将大模型开放性地接入SaaS服务工具 , 与百度文心千帆的模型调用有些异曲同工 。虽然只做了接口调用、F.NETune , 但给用户提供了更多、更快速、更稳定的AI落地能力 。
“开源模型可以让用户更容易上手 , 而且现在很多开源模型的更新速度甚至比大厂都快 。”微盟集团首席运营官COO尹世明认为 , 开源开放可以迅速把AI能力交付到用户手中 , 而用户真正需要的是“即插即用”的AI 。
对于多数还处在试验、实验、体验AI大模型阶段的用户来说 , 开源模型的门槛显然更低 , 启动成本更是几乎为零 。
很多用户从一开始就使用开源模型 , 后续也就会选择一直沿用 。而前边提到的部署和训练上的问题 , 则正在催生一条针对开源模型的服务产业链 。
陈冉在这波大模型热潮中 , 新创的OpenCSG就正在围绕开源大模型做服务的生意 。
OpenCSG提供的大模型服务主要针对企业的开源模型训练和落地 。从开源模型的选型 , 到混合的分布式的算力 , 结合业务的模型训练 , 以及后端的应用开发等 , 都可以给企业提供服务 。
“大模型在我看来就跟所有的SaaS差不多 , 上下游产业会逐步丰富 , 客户的关注点也不会只聚焦在模型能力上 。”陈冉认为 , 客户的终极需求不是找到能力最强的模型 , 而是要更好、更轻松 , 更简单地把AI大模型用起来 , 服务他的业务 。
围绕AI的开源生态
在整个AI产业链中 , 开源远不止于模型 。从研发到部署 , 再到应用 , 几乎每个环节都离不开 , 开源的话题 。
算法、算力、数据 , AI三要素每项都需要开源的支持 。
在算法层面 , 开源AI大模型处在相对后期的阶段 。在早期AI研发中 , 几乎所有AI模型都要用到机器学习框架 , 它就相当于打造AI的工具箱 。而目前主流的机器学习框架 , 包括TensorFlow , Pytorch , PaddlePaddle(飞桨)等均为开源框架 。
在数据层面 , Commen Crowl开源数据集是GPT模型训练过程中很重要的一个数据来源 。目前很多机构和数据公司都在AI训练数据集方面发布了开源产品 , 包括智源研究院的COIG-PC数据集 , 以及海天瑞声的DOTS-MM-0526多模态数据集 。
对于数据集的发布者来说 , 开源不仅可以提升影响力和品牌价值 , 开源后的数据集也可以收集来自开源社区的正向反馈 , 发现并修复数据中的错误或不一致性 。这种外部审核有助于提高数据质量 , 同时进一步丰富发布者的产品生态系统 。
“算法工程师在研发中 , 经常面临没有数据的烦恼 , 高质量数据可以对模型评测带来质的提升 。我国目前面临着高质量数据集的稀缺问题 , 这也阻碍了中文大模型技术的发展 。”海天瑞声是开源模型LLaMA 2的训练数据提供者之一 , 海天瑞声首席运营官李科表示 。
在AI发展最大的瓶颈——算力方面 , 开源芯片框架也正在刺激产业发展 。
8月4日 , 高通宣布与4家半导体公司共同成立合资公司 , 加速基于开源 RISC-V 架构的芯片商业化 。目前市面上主流的芯片框架有3个:英特尔CPU使用的x86 , 英伟达GPU使用的Arm , 以及开源芯片框架RISC-V 。
“RISC-V可以提供一个可编程的环境 , 芯片研发团队可以利用RISC-V做很多预处理和后处理的工作 , 也可以加入符合用户需求的特色加速器 , 或者功能模块 , 去满足用户的需求 。”SiFive企业营销与业务开发资深副总裁刚至坚表示 , RISC-V的生态系统为芯片研发提供了丰富的选择 , 对于如今需求增长迅速的AI芯片来说有很大助力 。
与RISC-V相比 , Arm和x86的生态系统相对封闭 。在Arm生态中 , 用户只能选择Arm提供的有限选项 , 而RISC-V生态则有众多公司参与 , 产品种类和选择会更多 。
基于开源的架构也正在刺激芯片行业加速竞争 , 刚至坚说:“作为开源芯片架构的服务商 , 我们也会与其他公司竞争 。但不论是我们胜出 , 还是其他公司胜出 , 这种竞争最终都会促进RISC-V生态的繁荣和进步 。”
推荐阅读
- 元宇宙数字虚拟人的前世今生,你了解多少?
- 为什么很多人都在吹ChatGPT改变世界?一文全面了解
- 梦见水淹路但走了过去 梦见水淹路
- 1960年1元纸币,发行五十多年了,现在收藏价值怎么样
- 《孤注一掷》女人的“形容枯槁”,打了多少“浓妆艳抹”女星的脸
- 苹果手机app怎么下载 苹果手机APP怎么下载不了抖音
- 梦见自己被别人的狗咬了还流血了 梦见自己被狗咬
- Angelababy又被批评了,这次有点冤
- 我们都被骗了!老戏骨竟然是“国际反恐专家”,演戏只是业余爱好而已
- 事实证明,40岁的唐嫣已经活成了一个“笑话”
