|AlphaGo原来是这样运行的，一文详解多智能体强化学习

机器之心分析师网络
作者：杨旭韵
编辑：Joni
在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。
近年来，随着强化学习（reinforcement learning）在多个应用领域取得了令人瞩目的成果，并且考虑到在现实场景中通常会同时存在多个决策个体（智能体），部分研究者逐渐将眼光从单智能体领域延伸到多智能体。
本文将首先简要地介绍多智能体强化学习（multi-agent reinforcement learning, MARL）的相关理论基础，包括问题的定义、问题的建模，以及涉及到的核心思想和概念等。然后，根据具体应用中智能体之间的关系，将多智能体问题分为完全合作式、完全竞争式、混合关系式三种类型，并简要阐述解决各类多智能体问题的经典算法。最后，本文列举深度强化学习在多智能体研究工作中提出的一些方法（multi-agent deep reinforcement learning）。
1. 强化学习和多智能体强化学习
我们知道，强化学习的核心思想是“试错”（trial-and-error）：智能体通过与环境的交互，根据获得的反馈信息迭代地优化。在 RL 领域，待解决的问题通常被描述为马尔科夫决策过程。

本文插图

图 1：强化学习的框架（同时也表示了马尔科夫决策过程）。图源：[1]
当同时存在多个智能体与环境交互时，整个系统就变成一个多智能体系统（multi-agent system）。每个智能体仍然是遵循着强化学习的目标，也就是是最大化能够获得的累积回报，而此时环境全局状态的改变就和所有智能体的联合动作（joint action）相关了。因此在智能体策略学习的过程中，需要考虑联合动作的影响。
1.1 多智能体问题的建模——博弈论基础
马尔科夫决策过程拓展到多智能体系统，被定义为马尔科夫博弈（又称为随机博弈， Markov/stochastic game）。当我们对博弈论有一定了解后，能够借助博弈论来对多智能体强化学习问题进行建模，并更清晰地找到求解问题的方法。

本文插图

图 2：马尔科夫博弈过程。图源：[2]
在马尔科夫博弈中，所有智能体根据当前的环境状态（或者是观测值）来同时选择并执行各自的动作，该各自动作带来的联合动作影响了环境状态的转移和更新，并决定了智能体获得的奖励反馈。它可以通过元组 < S,A1,...,An,T,R1,...,Rn > 来表示，其中 S 表示状态集合， Ai 和 Ri 分别表示智能体 i 的动作集合和奖励集合， T 表示环境状态转移概率，表示损失因子。此时，某个智能体 i 获得的累积奖励的期望可以表示为：

本文插图

对于马尔科夫博弈，纳什均衡（Nash equilibrium）是一个很重要的概念，它是在多个智能体中达成的一个不动点，对于其中任意一个智能体来说，无法通过采取其他的策略来获得更高的累积回报，在数学形式上可以表达为：

本文插图

在该式中， π^表示智能体 i 的纳什均衡策略。
值得注意的是，纳什均衡不一定是全局最优，但它是在概率上最容易产生的结果，是在学习时较容易收敛到的状态，特别是如果当前智能体无法知道其他智能体将会采取怎样的策略。这里举个简单的例子来帮助理解，即博弈论中经典的囚徒困境。根据两个人不同的交代情况，判刑的时间是不一样的：

|AlphaGo原来是这样运行的，一文详解多智能体强化学习

推荐阅读

和平精英|和平精英巅峰赛首批参赛选手名单公布，网友：不求人呢？

生物|东方生物“四联”检测试纸完成CE认证

戴安娜|戴安娜逝世23周年！威廉难掩悲痛红了眼眶，弟弟哈里却不见踪迹

娱乐圈爆料：杨紫、赵露思、王源、鞠婧祎、任嘉伦、张嘉倪

官宣离巢！港圈知名姐妹花承认离开公司，有指因资源不均感失望

「东易日盛南京分公司」这个餐厅厨房能提升家庭关系，爱了爱了！，215㎡都市风格大平层

「微信」对标抖音！微信推出视频号功能，也能愉快的刷短视频

骑士优格山海皆可平，「全心爱你」：所爱隔山海

华为手机|国庆这三款最值得买，高配低价超良心！你买对了吗

|美国这次大怒，又晚一步！5000亿大单花落中国

民航之翼|第四家民营航空公司完成更名！

厦门玩乐|BAO美啦｜建议把41岁的高圆圆写进词典，是锦绣的同义词

中兴|超1000项改进！中兴手机系统MyOS正式发布：S30系列首发搭载

华为|美制裁下的华为供应链：索尼传感器业务失速呼吁国家支持

飞浩星座|不要大意，细节决定成败，生肖猪要注意：本命年刚过

科学|宇宙诞生于138亿年前的一次大爆炸，那么大爆炸之前又是什么？

科学“无限的子环”可能成为下一个拍摄黑洞的先驱者

iOS|苹果iOS 14正式版推送时间曝光，如果是这些型号，最好别升级！

情有独钟的梦学会这5种营养豆腐的做法，比肉好吃100倍

感觉已练出腹肌但是有赘肉咋办