大模型心高气傲,没有AI Agents生死难料( 二 )


但是,这种能力怎么被开发者和普通用户用到呢?很多开发者都反应,直接使用GPT4写代码还是得自己debug,并不能看图生成直接用的代码,有时候不如不用 。
大模型厂商也为难啊,我已经开放了API,要更专业精准精细化的能力,还得有人来进一步开发,这就把接力棒交给了AI Agent 。
AI Agent(智能体),是AI在环境中的自动化实体,有四个核心特征:
1. 通过传感器感知周围的环境 。这个环境,既可以是虚拟的,比如沙盒游戏、模拟训练系统、自动驾驶模拟器等,也可以是物理的,比如马路、房间、流水线等 。
2. 可以自主做出决定 。
3. 由执行器/效应器一起来采取行动 。
4.基于绩效最大化和结果最优化来学习进步 。

大模型心高气傲,没有AI Agents生死难料

文章插图
从这个角度看,其实人类自己也是一种“智能代理”AI Agent,我们可以通过眼睛、耳朵、皮肤等感知外界环境的变化,再通过大脑做出决策,用嘴说、用腿走来做出行动,并且根据奖励反馈来不断调整适应外界环境 。
其实,Agents in AI也是一样的逻辑 。就拿自动驾驶场景的AI Agent来说,就需要传感器来采集信息,感知道路车辆行人等环境因素,再由系统自动决策,驱动油门、制动器等设备做出相应的反应 。
这也被称为AI Agent的PEAS模型 。我们给大家简单做个表,感受一下:
大模型心高气傲,没有AI Agents生死难料

文章插图
那么,具体在大模型上,AI Agent可以带来什么影响了?主要有以下几个关键的作用:
第一,拆解任务 。
大模型要和某个具体领域结合,面对的用户需求是比较笼统的,过程往往会涉及到多个步骤 。就好比用户说“要有光”,孤立的大模型既不知道所在的环境有什么灯具,也不知道怎么控制,所以有了大模型也不能搞定这个看似简单其实复杂的任务 。
而AI Agent具有任务规划能力,可以自动理解并决定,如何规划步骤、分配资源、优化决策,进而完成指令,提升了大模型处理任务的效率和精度 。
谷歌大脑研究团队的一篇论文中,就让大语言模型把任务步骤分解的推理过程,也就是“内心独白”都说出来,再去做相应的动作,一下子就提高了大模型答案的准确性,在多个数据集上都取得了SOTA 效果,让大模型胡说八道的情况有所改善 。
第二,自动执行 。
AI Agent被设计为独立思考和行动,用户只需要给它一个任务,让它做事就可以了 。AutoGPT的典型案例就是点披萨,不需要用户自己输入地址、选择口味,AI Agent将所有点餐步骤都大包大揽,自动执行,人在一边看着,发现出错及时纠正就好了 。
AI Agent不止能使用互联网,还可以在物理环境中工作,控制机器人拿快递、无人车、自动驾驶等 。
有了AI Agent,用户和大模型之间的交互,会更加自然、简单、快速,减少人工参与,真正提质增效 。比如游戏世界中,AI Agent可以自动跟玩家展开对话,提供开放式的交互,根据玩家的反馈来设计无限故事线,真正让游戏做到千人千面;物理世界中,AI Agent自动生成指令和操作,驱动机械身体,为人类提供家政服务,在工厂里自动化作业,不依赖人类的指导就能完成 。
第三,节约资源 。
AI Agent像人一样,能够使用工具,也就是调用API,来处理更加复杂的任务,这就很好地扩展了大模型的能力,减少了对资源的浪费和过度消耗 。
比如AutoGPT写代码,要对专有信息源数据、算力资源等进行访问,这个过程中AI Agent可以自动找到合适的API来进行调用,这样就可以避免浪费其他API token 。还能够自主学习,对结果进行优化,如果不满意就重新调用 API 。
一般来说,要真正完成一项不明确的用户指令,比如旅行规划,需要模型调用多个API才能解决问题,自动化强的AI Agent无疑能够很好地节省资源,进而为用户节省成本,让AI应用更有吸引力和竞争力 。
第四,吸引开发者 。
对大模型的商业化来说,API模式需要尽可能多的开发者群体参与,行业模式也需要ISV集成商、软件服务商等 。大家都知道,和大厂卷基础模型是很难有胜算的,更希望在细分的上层应用上找到机会 。而AI Agent能够解决具体问题、提高模型效果,驱动数字系统和物理实体,就非常适合来构建超级应用 。
如果说AI Agent就像是一个最小单位的AI生命,那么大模型厂商就是孕育生命的工厂,而开发者、软件商等就像是技能培训班,教会它们一些实用而有差别的技能,到行业和用户身边努力工作 。


推荐阅读