|AlphaGo原来是这样运行的,一文详解多智能体强化学习( 二 )
本文插图
在这个表格中 , 当 A 和 B 都选择撒谎时 , 能够达到全局最优的回报 。 但是每个个体都不知道另外的个体会做出怎样的行为 , 对于 A 或者是来 B 说 , 如果改成选择坦白 , 则能够获得更优的回报 。 实际上 , 对于 A 或者 B 来说 , 此时不管另外的个体选择了哪种行为 , 坦白是它能够获得最优回报的选择 。 所以 , 最终会收敛到 A 和 B 都选择坦白 , 即囚徒困境中的纳什均衡策略 。
均衡求解方法是多智能体强化学习的基本方法 , 它对于多智能体学习的问题 , 结合了强化学习的经典方法(如 Q-learning)和博弈论中的均衡概念 , 通过 RL 的方法来求解该均衡目标 , 从而完成多智能体的相关任务 。 这种思路在后面介绍具体的学习方法中会有所体现 。
相比于单智能体系统 , 强化学习应用在多智能体系统中会遇到哪些问题和挑战?
环境的不稳定性:智能体在做决策的同时 , 其他智能体也在采取动作;环境状态的变化与所有智能体的联合动作相关;
智能体获取信息的局限性:不一定能够获得全局的信息 , 智能体仅能获取局部的观测信息 , 但无法得知其他智能体的观测信息、动作和奖励等信息;
个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;
可拓展性:在大规模的多智能体系统中 , 就会涉及到高维度的状态空间和动作空间 , 对于模型表达能力和真实场景中的硬件算力有一定的要求 。
1.2 多智能体问题的求解——多智能体强化学习算法介绍
对于多智能体强化学习问题 , 一种直接的解决思路:将单智能体强化学习方法直接套用在多智能体系统中 , 即每个智能体把其他智能体都当做环境中的因素 , 仍然按照单智能体学习的方式、通过与环境的交互来更新策略;这是 independent Q-learning 方法的思想 。 这种学习方式固然简单也很容易实现 , 但忽略了其他智能体也具备决策的能力、所有个体的动作共同影响环境的状态 , 使得它很难稳定地学习并达到良好的效果 。
在一般情况下 , 智能体之间可能存在的是竞争关系(非合作关系)、半竞争半合作关系(混合式)或者是完全合作关系 , 在这些关系模式下 , 个体需要考虑其他智能体决策行为的影响也是不一样的 。 参考综述[3] , 接下来的部分将根据智能体之间的关系 , 按照完全竞争式、半竞争半合作、完全合作式来阐述多智能体问题的建模以及求解方法 。
1.2.1 智能体之间是完全竞争关系
minimax Q-learning 算法用于两个智能体之间是完全竞争关系的零和随机博弈 。 首先是最优值函数的定义:对于智能体 i , 它需要考虑在其他智能体(i-)采取的动作(a-)令自己(i)回报最差(min)的情况下 , 能够获得的最大(max)期望回报 。 该回报可以表示为:
本文插图
【|AlphaGo原来是这样运行的,一文详解多智能体强化学习】在式子中 , V 和 Q 省略了智能体 i 的下标 , 是因为在零和博弈中设定了 Q1=-Q2 , 所以上式对于另一个智能体来说是对称等价的 。 这个值函数表明 , 当前智能体在考虑了对手策略的情况下使用贪心选择 。 这种方式使得智能体容易收敛到纳什均衡策略 。
在学习过程中 , 基于强化学习中的 Q-learning 方法 , minimax Q-learning 利用上述 minimax 思想定义的值函数、通过迭代更新 Q 值;动作的选择 , 则是通过线性规划来求解当前阶段状态 s 对应的纳什均衡策略 。
本文插图
推荐阅读
- |双11后第一个传破产的品牌,怎么混成这样了?
- |你见过这样的“跨界合作”吗?神奇的微藻吸的是二氧化碳吐的却是燃料
- 小鹅|如何利用社交圈在双11突出重围,腾讯小鹅拼拼这样做
- TAKSTAR得胜|原来一套音箱就能实现聚会BBQ户外K歌!
- 睿当家科技|汉堡王风波不断!超6770万!被法院列为被执行人,他们这样回应
- 爱玛游戏视频|做自媒体拍视频,总是忘词怎么办?这样做能很好解决问题
- 每日热点生活|洗菜又出新花样,学校食堂员工被曝这样洗 校方回应来了
- 向奋科技说资讯|用了5年华为手机才发现,原来华为能当翻译器,一键翻译多国语言
- 嘟嘟谈数码|OPPO智能电视R1攻略:深挖细节,原来玩法这么多
- 识物客|拖地原来可以这么轻松,吉米W7无线智能洗地机体验浅谈设计:实际使用(除污场景):总结与建议: