|AlphaGo原来是这样运行的,一文详解多智能体强化学习( 五 )


对应地 , 智能体 j 的策略也会基于 Q 值迭代更新 , 使用玻尔兹曼分布有:
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

原文证明了通过这样的迭代更新方式 , bar最终能够收敛到唯一平衡点的证明 , 并推出智能体 j 的策略πj 能够收敛到纳什均衡策略 。
显式的协作机制
关于显式的协作机制 , 我们将通过多智能体深度强化学习在多机器人领域的应用中会简单介绍(主要是人机之间的交互 , 考虑现存的一些约束条件 / 先验规则等) 。
2. 多智能体深度强化学习
随着深度学习的发展 , 利用神经网络的强大表达能力来搭建逼近模型(value approximation)和策略模型(常见于 policy-based 的 DRL 方法) 。 深度强化学习的方法可以分为基于值函数(value-based)和基于策略(policy-based)两种 , 在考虑多智能体问题时 , 主要的方式是在值函数的定义或者是策略的定义中引入多智能体的相关因素 , 并设计相应的网络结构作为值函数模型和策略模型 , 最终训练得到的模型能够适应(直接或者是潜在地学习到智能体相互之间的复杂关系) , 在具体任务上获得不错的效果 。
2.1 policy-based 的方法
在完全合作的 setting 下 , 多智能体整体通常需要最大化全局的期望回报 。 前面提到一种完全集中式的方式:通过一个中心模块来完成全局信息的获取和决策计算 , 能够直接地将适用于单智能体的 RL 方法拓展到多智能体系统中 。 但通常在现实情况中 , 中心化的控制器(centralized controller)并不一定可行 , 或者说不一定是比较理想的决策方式 。 而如果采用完全分布式的方式 , 每个智能体独自学习自己的值函数网络以及策略网络、不考虑其他智能体对自己的影响 , 无法很好处理环境的不稳定问题 。 利用强化学习中 actor-critic 框架的特点 , 能够在这两种极端方式中找到协调的办法 。
1. 多智能体 DDPG 方法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

这种方法是在深度确定策略梯度(Deep Deterministic Policy Gradient , DDPG)方法的基础上、对其中涉及到的 actor-critic 框架进行改进 , 使用集中式训练、分布式执行的机制(centralized training and decentralized execution) , 为解决多智能体问题提供了一种比较通用的思路 。
MADDPG 为每个智能体都建立了一个中心化的 critic , 它能够获取全局信息(包括全局状态和所有智能体的动作)并给出对应的值函数 Qi(x,a1,...,an) , 这在一定程度上能够缓解多智能体系统环境不稳定的问题 。 另一方面 , 每个智能体的 actor 则只需要根据局部的观测信息作出决策 , 这能够实现对多智能体的分布式控制 。
在基于 actor-critic 框架的学习过程中 , critic 和 actor 的更新方式和 DDPG 类似 。 对于 critic , 它的优化目标为:
对于 actor , 考虑确定性策略μi(ai|oi) , 策略更新时的梯度计算可以表示为:
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

图 6:中心化的 Q 值学习(绿色)和分布式的策略执行(褐色) 。 Q 值获取所有智能体的观测信息 o 和动作 a , 策略π根据个体的观测信息来输出个体动作 。 图源:[9]
在 MADDPG 中 , 个体维护的中心化 Q 值需要知道全局的状态信息和所有智能体的动作信息 , 此时假设了智能体能够通过通信或者是某种方式得知其他智能体的观测值和策略 , 这种假设前提过于严格 。 MADDPG 进一步提出了可以通过维护策略逼近函数hat{miu}来估计其他智能体的策略 , 通过对其他智能体的行为建模使得维护中心化的 Q 值、考虑联合动作效应对单个个体来说是可行的 。 智能体 i 在逼近第 j 个智能体的策略函数时 , 其优化目标是令策略函数能够近似经验样本中智能体 j 的行为 , 同时考虑该策略的熵 , 可表示为:


推荐阅读