|强化学习三大方法,改善AI的游戏表现( 二 )


顺序无关的汇总记忆 , 提高游戏智能体的回忆能力
在许多游戏中 , 玩家对周围的世界仅有局部的可观察性 。 要采取行动 , 玩家需要回忆早前在游戏中曾经见过但不在当前视线范围内的物品、地点和其他玩家 。 深度强化学习智能体利用递归网络(例如 LSTM 或 GRU) , 或者外部存储器读取和写入能力(如差分神经计算机 , 简称 DNC)就可以解决上述问题 。
【|强化学习三大方法,改善AI的游戏表现】自然语言处理中经常会使用递归网络去回忆较早的内容 , 因为通常情况下 , 单词顺序对其理解十分重要 。 但是 , 智能体与游戏环境的互动过程会影响它们对周围环境的观察顺序 , 而这与它们的行为方式可能并无关联 。 举一个与日常生活相关的例子 , 如果一个人在一座新建筑物中行走时看到过一个消防通道 , 那么无论此后他经历了什么或者做过哪些事情 , 在某些情况下可能都需要回忆起消防通道的确切位置 。 在 ICLR 2020 论文 “AMRL:用于强化学习的汇总记忆”(AMRL: Aggregated Memory For Reinforcement Learning)中 , 微软的研究员们建议在智能体的策略网络中使用顺序无关的汇总记忆(到目前为止所看到的值的总和或其中的最大值)来解决这个问题 。
|强化学习三大方法,改善AI的游戏表现
本文插图
图2:模型架构 。 从左到右分别是 LSTM、DNC、SET 和 AMRL 。
虽然培养外部存储器的读写能力(例如 DNC)也可以学习直接回忆先前的观察结果 , 但实际证明 , 其架构的复杂性要求模型具备更多与环境交互的样本 , 而这有可能阻碍它们在固定的计算预算内学习高性能的策略 。
实验中 , 研究员们在“我的世界”游戏的某一关开始时 , 向智能体展示了一个红色或绿色立方体 , 告诉它们在本关结束时必须采取某种行动 。 在观察到某个绿色或红色立方体之后 , 直至观察到下一个绿色或红色立方体之前的时间里 , 智能体可以在当前环境中自由移动 , 这样可以创建出一个长度不定且互不相关的观察值序列 , 从而分散智能体的注意力 , 并让它们忘记在开始时观察到的立方体颜色 。
|强化学习三大方法,改善AI的游戏表现
本文插图
图3:测试智能体记忆能力的“我的世界”迷宫俯视图(下)和智能体在该环境移动时可能看到的观察样本(上)
通过递归网络与顺序无关的汇总记忆的整合 , AMRL 既可以从最近的观察序列中推断出状态的隐藏特征 , 又可以回忆起过去任何时间曾经观察到的信息 。 这样 , 智能体就能够有效地回忆起立方体的颜色 , 并在游戏某一关结束时做出正确的决定 。 借助这种新的能力 , 智能体可以玩更复杂的游戏 , 甚至可以部署在非游戏应用中 , 即在这些应用中智能体必须在局部可见的环境中调出很久以前的回忆 。
VariBAD , 自适应探索未知游戏环境
目前 , 几乎所有的强化学习任务以及大多数为视频游戏应用训练的强化学习智能体 , 都是针对单个游戏场景进行优化的 。 但在交互性强的游戏中 , 智能体的关键特征之一是不断学习和适应新挑战的能力 。 微软与牛津大学的研究人员合作开发的新方法 , 让智能体能够探索并快速适应给定的任务或场景 。
在论文 “VariBAD:一种通过元学习实现贝叶斯自适应深度强化学习的良好方法”(VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning)中 , 研究员们将关注点放在了“贝叶斯自适应马可夫决策过程”(Bayes-Adaptive Markov Decision Processes)的问题上 。 简单来说 , 在这种情况下 , 智能体将学会与各种任务进行交互 , 并学会如何尽快就当前所执行任务做出推断 。 该研究的目标是训练出可根据对当前任务的判断 , 做出最佳表现的智能体 , 也就是“贝叶斯最优智能体” 。 例如 , 设想一个智能体 , 它经过训练后可以抵达各个目标位置 , 在游戏的某一关开始时 , 智能体并不确定自己应该抵达的目标位置 。 而“贝叶斯最优智能体”会依据自己对可能目标位置的最初设定 , 采取最佳的步数来降低不确定性 , 并达到正确的目标位置 。


推荐阅读