大模型心高气傲，没有AI Agents生死难料( 二 ) _AI

但是，这种能力怎么被开发者和普通用户用到呢？很多开发者都反应，直接使用GPT4写代码还是得自己debug，并不能看图生成直接用的代码，有时候不如不用。
大模型厂商也为难啊，我已经开放了API，要更专业精准精细化的能力，还得有人来进一步开发，这就把接力棒交给了AI Agent 。
AI Agent（智能体），是AI在环境中的自动化实体，有四个核心特征：
1. 通过传感器感知周围的环境。这个环境，既可以是虚拟的，比如沙盒游戏、模拟训练系统、自动驾驶模拟器等，也可以是物理的，比如马路、房间、流水线等。
2. 可以自主做出决定。
3. 由执行器/效应器一起来采取行动。
4.基于绩效最大化和结果最优化来学习进步。

文章插图
从这个角度看，其实人类自己也是一种“智能代理”AI Agent，我们可以通过眼睛、耳朵、皮肤等感知外界环境的变化，再通过大脑做出决策，用嘴说、用腿走来做出行动，并且根据奖励反馈来不断调整适应外界环境。
其实，Agents in AI也是一样的逻辑。就拿自动驾驶场景的AI Agent来说，就需要传感器来采集信息，感知道路车辆行人等环境因素，再由系统自动决策，驱动油门、制动器等设备做出相应的反应。
这也被称为AI Agent的PEAS模型。我们给大家简单做个表，感受一下：

文章插图
那么，具体在大模型上，AI Agent可以带来什么影响了？主要有以下几个关键的作用：
第一，拆解任务。
大模型要和某个具体领域结合，面对的用户需求是比较笼统的，过程往往会涉及到多个步骤。就好比用户说“要有光”，孤立的大模型既不知道所在的环境有什么灯具，也不知道怎么控制，所以有了大模型也不能搞定这个看似简单其实复杂的任务。
而AI Agent具有任务规划能力，可以自动理解并决定，如何规划步骤、分配资源、优化决策，进而完成指令，提升了大模型处理任务的效率和精度。
谷歌大脑研究团队的一篇论文中，就让大语言模型把任务步骤分解的推理过程，也就是“内心独白”都说出来，再去做相应的动作，一下子就提高了大模型答案的准确性，在多个数据集上都取得了SOTA 效果，让大模型胡说八道的情况有所改善。
第二，自动执行。
AI Agent被设计为独立思考和行动，用户只需要给它一个任务，让它做事就可以了。AutoGPT的典型案例就是点披萨，不需要用户自己输入地址、选择口味，AI Agent将所有点餐步骤都大包大揽，自动执行，人在一边看着，发现出错及时纠正就好了。
AI Agent不止能使用互联网，还可以在物理环境中工作，控制机器人拿快递、无人车、自动驾驶等。
有了AI Agent，用户和大模型之间的交互，会更加自然、简单、快速，减少人工参与，真正提质增效。比如游戏世界中，AI Agent可以自动跟玩家展开对话，提供开放式的交互，根据玩家的反馈来设计无限故事线，真正让游戏做到千人千面；物理世界中，AI Agent自动生成指令和操作，驱动机械身体，为人类提供家政服务，在工厂里自动化作业，不依赖人类的指导就能完成。
第三，节约资源。
AI Agent像人一样，能够使用工具，也就是调用API，来处理更加复杂的任务，这就很好地扩展了大模型的能力，减少了对资源的浪费和过度消耗。
比如AutoGPT写代码，要对专有信息源数据、算力资源等进行访问，这个过程中AI Agent可以自动找到合适的API来进行调用，这样就可以避免浪费其他API token 。还能够自主学习，对结果进行优化，如果不满意就重新调用 API 。
一般来说，要真正完成一项不明确的用户指令，比如旅行规划，需要模型调用多个API才能解决问题，自动化强的AI Agent无疑能够很好地节省资源，进而为用户节省成本，让AI应用更有吸引力和竞争力。
第四，吸引开发者。
对大模型的商业化来说，API模式需要尽可能多的开发者群体参与，行业模式也需要ISV集成商、软件服务商等。大家都知道，和大厂卷基础模型是很难有胜算的，更希望在细分的上层应用上找到机会。而AI Agent能够解决具体问题、提高模型效果，驱动数字系统和物理实体，就非常适合来构建超级应用。
如果说AI Agent就像是一个最小单位的AI生命，那么大模型厂商就是孕育生命的工厂，而开发者、软件商等就像是技能培训班，教会它们一些实用而有差别的技能，到行业和用户身边努力工作。