|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 八 )

本文插图

本文插图
最终学习收敛到最优的 Q_tot 并推出对应的策略，即为 QMIX 方法的整个学习流程。
3. 多智能体强化学习的应用
3.1. 游戏应用
分步对抗游戏
这类游戏包括了围棋、国际象棋、扑克牌等， MARL 在这几种游戏中都有相关的研究进展并取得了不错的成果。其中，著名的 AlphaGo 通过在和人类对战的围棋比赛中取得的惊人成绩而进入人们的视野。围棋是一种双玩家零和随机博弈，在每个时刻，玩家都能够获取整个棋局。它一种涉及超大状态空间的回合制游戏，很难直接使用传统的 RL 方法或者是搜索方法。 AlphaGo 结合了深度学习和强化学习的方法：
针对巨大状态空间的问题，使用网络结构 CNN 来提取和表示状态信息；
在训练的第一个阶段，使用人类玩家的数据进行有监督训练，得到预训练的网络；
在训练的第二个阶段，通过强化学习方法和自我博弈进一步更新网络；
在实际参与游戏时，结合价值网络（value network）和策略网络（policy network），使用蒙特卡洛树搜索（MCTS）方法得到真正执行的动作。

本文插图

图 11：AlphaGo 在 2016 年击败人类玩家。图源：https://rlss.inria.fr/files/2019/07/RLSS_Multiagent.pdf
实时战略游戏
MARL 的另一种重要的游戏应用领域，是实时战略游戏，包括星际争霸， DOTA ，王者荣耀，吃鸡等。该类游戏相比于前面提到的国际象棋、围棋等回合制类型的游戏，游戏 AI 训练的难度更大，不仅因为游戏时长过长、对于未来预期回报的估计涉及到的步数更多，还包括了多方同时参与游戏时造成的复杂空间维度增大，在一些游戏设定中可能无法获取完整的信息以及全局的形势（比如在星际争霸中，不知道迷雾区域是否有敌方的军队），在考虑队内合作的同时也要考虑对外的竞争。
OpenAI Five 是 OpenAI 团队针对 Dota 2 研发的一个游戏 AI [13] ，智能体的策略的学习没有使用人类玩家的数据、是从零开始的（learn from scratch）。考虑游戏中队内英雄的协作，基于每个英雄的分布式控制方式（即每个英雄都有各自的决策网络模型），在训练过程中，通过一个超参数 “team spirit” 对每个英雄加权、控制团队合作，并且使用基于团队整体行为的奖励机制来引导队内合作。考虑和其他团队的对抗，在训练过程中使用自我对抗的方式（也称为虚拟自我博弈， fictitious self-play ，FSP）来提升策略应对复杂环境或者是复杂对抗形势的能力。这种自我对抗的训练方式，早在 2017 年 OpenAI 就基于 Dota2 进行了相关的研究和分析，并发现智能体能够自主地学习掌握到一些复杂的技能；应用在群体对抗中，能够提升团队策略整体对抗的能力。
AlphaStar 是 OpenAI 团队另一个针对星际争霸 2（Starcraft II）研发的游戏 AI ，其中在处理多智能体博弈问题的时候，再次利用了 self-play 的思想并进一步改进，提出了一种联盟利用探索的学习方式（league exploiter discovery）。使用多类个体来建立一个联盟（league），这些个体包括主智能体（main agents）、主利用者（main exploiters）、联盟利用者（league exploiters）和历史玩家（past players）四类。这几类智能体的策略会被保存（相当于构建了一个策略池），在该联盟内各类智能体按照一定的匹配规则与策略池中的其他类智能体的策略进行对抗，能够利用之前学会的有效信息并且不断增强策略的能力，解决普通的自我博弈方法所带有的 “循环学习” 问题（“Chasing its tail”）。

|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 八 )

推荐阅读

内心忐忑的小时|朱一龙为杨蓉庆生，延续6年的祝福太暖心，祝你做自己的光，原创

冷天早餐，不糊弄不将就，学学7天不重样，孩子吃得好精神也充足

[牛仔裤]牛仔裤修饰身形的效果非常的好，简约而又不失淑女的时尚气质

幽默搞笑段子集锦|幽默笑话：男友在我脖子上留了个吻痕，回家被老妈发现了！，原创

《武学宗师》启巡演：以中国式话剧展近代武学名家之魂

『澳大利亚』澳称鉴于印太地区形势变化将采购远程导弹，中方表态

天冷了，吃牛肉不如吃它，上锅蒸一蒸，清香鲜美，冬天的佳肴

蓓小西|从打扮中就看得出，谁的野心比较大，范冰冰、马苏同框高调看秀

哈萨克斯坦明日直播总统大选电视辩论，7名候选人将一逞辩才

喝红茶的点心,广州茶的特点

华炬名茶携手知名酒庄演绎茶酒文化

上海浦东报告1例确诊病例：浦东机场货运站从事搬运工作已追踪密接者26人

健康|十个女的九个有炎症，坚持吃一物，杀菌消炎，子宫越来越健康

「国民党」此人是国民党少校，却指挥得动少将，建国后在刑场上被解放军救下

买鲈鱼时，要分清“河鲈”和“海鲈”，区别挺大，弄懂再买不吃亏

旅途结束返程的诗句?旅游返程的唯美句子

科技创新▲中国天量的货币应该流向哪里？

百家讲坛讲哪几集可以帮助高中的学习

「陈法蓉」陈法蓉奔六年纪有少女心，衣服上带荷叶花边，短发也能穿出女人味

补肾|肾虚“别忙补”，老中医：“3招”补肾气，简单易学！