10余家大厂争做ChatGPT,谁是有实力,谁在蹭热度?( 二 )


而在GPT-3.5之前 , 一位火山引擎的前开发人员告诉Tech星球 , 字节很早就着手研究基于GPT2、GPT3的训练模型和产品 , 并且字节旗下的火山引擎也在NLP(自然语言处理)应用方面有研究积累 。
目前 , 字节对话机器人、机器翻译、机器写作上有不少研究 , 特别是针对内容创作这一块 。在ChatGPT被用作写文章前 , 字节跳动就研发了Xiaomingbot自动写稿平台 , 自2016年上线以来 , 已经累计写了60万篇文章 , 覆盖了17项的体育赛事 , 支持6种语言 。
近日 , 快手也对外表示 , 正在开展大规模语言模型(LLM Large Language Model)相关研究 , 并启动了相应专项 , 覆盖LLM模型训练、文案自动创作与生成、对话系统开发等领域 。
此外 , 京东云言犀也宣布将推出产业版ChatGPT:ChatJD  , 预计参数量为千亿级 , 主要应用在零售和金融2个领域 。
国内大厂为何没能抢得先机?
大厂扎堆涌入 , 但有实力的玩家并不多 。
有研究估测 , 训练1750亿参数语言大模型GPT-3 , 需要有上万个 CPU/GPU24小时不间输入数据 , 所需能耗相当于开车往返地球和月球 , 且一次运算就要花费450万美元(约合3000万元) 。
高昂的研发成本意味着 , 主流的大模型只能由大型科技公司或是少数研究机构掌握 。
从参数数量来说 , 百度的文心大模型有2600亿参数 , 远高于GPT-3的1700亿参数 。但参数数量并不代表模型结果 。国内并不缺数据 , 百度、字节跳动这样的公司都有海量的数据积累 , 不过后续包括数据清洗、标注以及模型的结构设计 , 训练、推理等都需要时间积累 。这可能是国内大模型表现结果不如国外惊艳的重要原因 。
拉开差距的关键时间点是在2020年年中 , 也就是GPT3.0刚出来时 。一份流传的专家纪要显示 , 当时可能很多人觉得GPT3.0不仅是技术 , 体现了AI模型的发展新理念 , 因为ChatGPT的开发商OpenAI对这一块有技术的独到见解 , 也领先了国外的google , 大概Google比OpenAI差了半年到一年的时间 , 国内公司差了两年的时间 。
这与国内外很多科技企业认为 , ChatGPT并不是革命性的技术也有关系 。ChatGPT是OpenAI对其2020年发布的GPT-3模型微调后开发出的对话机器人 , 严格来说 , ChatGPT并未实现底层模型的显著突破 , 它巧妙地采用了理解、生成和交互相结合的方式 , 基于人类反馈进行强化训练 , 在体验上带给人智能的感觉 。
Meta首席人工智能科学家Yann LeCun , 不久前在一次小型媒体和高管在线聚会上发表了自己对ChatGPT的看法:“就底层技术而言 , ChatGPT 并没有什么特别的创新 , 也不是什么革命性的东西 。许多研究实验室正在使用同样的技术 , 开展同样的工作 。”
一位百度员工告诉Tech星球 , 其实国内很多大厂做了很久 , 但都不是GPT方向 , 而是其他产业方向 。2022年很多开发者基于百度文心做的应用 , 多是心理咨询、寻医问药、高考志愿等场景 。阿里‘通义’大模型也覆盖200+服务场景 , 包括AIGC , 智能对话也有 , 但不是很强 。
没有意识到ChatGPT对现有搜索模式的颠覆 , 没有准确预测到ChatGPT对脑力劳动者产生替代的关系 。问题的关键在于 , 很多互联网企业认为“chat”这是一个很浅的应用 , 从现在的场景上 , 就是一个更强的聊天机器人 , 有一定的问答属性 , 暂时看不到商用的点 。
有着上述相同看法的一位字节NPL算法工程师告诉Tech星球 , ChatGPT是一种不确定性极高的项目 , 国内没有成功先例 , 如果真的All-in去做 , 上面并不一定会提供资源 , 更别说提上优先级 。另外 , 国内的技术确实是能力有限 , 比如想做一个大模型 , 缺少的不仅仅是资金 , 还有人力和基础模型 , 对于互联网大厂这种商业公司而言 , 有着较大的难度 。
不仅认知层面存在局限 , 技术上的局限也有 。
目前 , ChatGPT的信息截止到了2021年 , 这意味着如果把它当做搜索工具使用 , 显然无法获得实时信息 。一位百度员工表示 , 百度现在正在解决信息实时性的问题 。同时 , ChatGPT已经在准备推出基于GPT-4的迭代产品 , 国内企业又有新的目标需要追赶 。


推荐阅读