或许正因如此 , 于近期发布的京东灵犀大模型选择优先跑通自家业务场景 , 预计于明年初方对“外部严肃商业场景”开放 。
更值一提的是 , “行业成风”之下 , 商业化导向下的所谓行业模型在取代大模型原本的“通用”叙事的同时 , 也遭致不少人的“迷失” 。
所谓行业大模型的定义存在模糊不清 。大模型(Foundation Model)的内涵不在于参数量多少而在于使用通用数据训练而涌现出的通用能力 。如采用同样的模型架构 , 但在数据上使用单一领域数据 , 不仅丧失了通用能力 , 甚至会由于涌现的折扣导致领域问题也无法解决 。
如在原大模型基础上使用行业数据做二次预训练 , 相当于微调了原模型 , 那么即产品本身仍处于模型层 , 可以被称作行业大模型;如通过prompt或外挂数据库的方式加入领域知识 , 那便仅是对原模型能力的激发 , 产品也应归属至模型之上的应用层 , 称之为行业大模型言过其实 。
目前大厂中发力行业大模型的绝大多数均是前者 , 如腾讯、京东、华为等 。后者则由于更轻的投入与快速提高模型能力的表现 , 更多会出现在开源社区中 , 例如前段时间引发热议的法律大模型ChatLaw 。
“相比前者 , 后者在产品形态上更为成熟 , 便于快速构建模型能力 , 但后者在完成灌输领域知识的流程后 , 往往上限会更高” , 一位业内人士称 。
开源威胁
近日 , Meta在开放商用许可下免费提供其最新开源大模型Llama2 , 并将其引入微软的Azure平台 , 此举被誉为开源LLM的重要里程碑 , 甚至开始威胁闭源的头部厂商OpenAI的地位 。
通过微软这个大模型金主 , Meta以更开放的姿态挑战OpenAI 。
实际上 , “开源派”早在此前便以第三方的身份悄然崛起 。“我们没有护城河 , OpenAI 也没有 。”这句话出自5月谷歌意外泄露的一份内部文件 。其内容大意是表面上 , OpenAI 和谷歌在大模型上你追我赶 , 但真正的赢家未必会从这两家中产生 , 下此判断的原因便在于愈加丰富的开源生态 。
开源生态愈发活跃 , 乃至于出现了模型能力的代表Llama2以及F.NETune(模型微调)范式的代表技术LORA , 这一切都让闭源争取“大力出奇迹”的巨头厂商感受到明显寒意 。
开源的技术分享以及人才流转等因素 , 也在让大模型的黑匣子愈发“玻璃化” , 缺少壁垒的必然结果是大厂在巨量资金、时间的投入下的Konw How轻易为开源社区所倾覆 。
国内头部大厂对此的应对大多是“两手抓” 。左手“关门造车” , 以小规模内测形式不断打磨产品形态与能力 , 右手“集思广益” , 以云端开发者生态为基础打造生态内的开源社区 , 但这刚需厂商自算力层、模型层到应用层的全栈布局 。阿里云推出了大模型开源社区魔搭GPT , 华为云、百度云、腾讯云也都有所布局 。
总体来看 , 无论是行业还是通用 , to C还是to B , 大模型的半年考给予我们的直接感觉是:落地困难 , 盈利预期不断后移;风险渐强 , 难言技术壁垒 。那么 , 当下的破局之路在哪?
目前而言 , 有两个有意思的方向 。其一是被誉为“ AI 时代的Memory”的向量数据库 , 其二是模型智能赋予下的智能硬件 。
【半年大模型,还在天上飞】所谓向量 , 即是可以代表任何东西的多维数据 , 包括如今LLM训练最为重视的文本 , 以及图像、视频、音声等 。这些形式的内容会在数据库中清晰表示 , 并且支持语义检索 , 即通过相似性检索 , 例如男人与男孩 。换句话说 , 于大模型而言 , 向量检索就是大模型的seo 。
如上文所述 , 领域知识可以通过向量数据库能力 , 或是精调或是外挂来提高行业模型的建构和使用 , 于大厂而言自然是下一阶段的发力点所在 。自5月起 , 资本便不断涌入向量数据相关赛道 , 作为前景更为确定的应用层产品 , 向量数据也收获了一众VC的密切关注 。
推荐阅读
- 数智商业技术2.0时代的新「三驾马车」,阿里妈妈郑波谈如何把握生成式大模型
- AI大模型能否继续扩展?
- 2023年下半年全国11个地区事业单位招聘16637人,笔试时间8月26日
- 报告:上半年求职情绪以 “稳”为主
- 《长相思》还在播,杨紫又有两部新剧蓄势待发,搭档的个个是男神
- 通俗解构语言大模型的工作原理
- 大模型重新激活电商领域ChatBot,新的流量入口到来?
- 去年招聘28万人,今年又招聘3万多人,难怪半年卖车126万辆
- 首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
- 唐嫣新剧造型被批老气,2023年了还在贴头皮,毫无仙气粗制滥造