|强化学习三大方法,改善AI的游戏表现


编者按:近年来 , 强化学习为游戏开发带来了新的机遇 , Paidia 项目便是最近的成果之一 。 该项目由微软剑桥研究院与游戏开发商 Ninja Theory 合作开发 , 不仅推进了强化学习的前沿技术 , 创造了全新的游戏体验 , 还开发了能够真正与人类玩家展开团队合作的游戏智能体 。 本文将详细介绍 Paidia 项目的三项最新研究成果 , 以及它们将如何引领现代视频游戏的开发 , 和其他现实应用领域中的AI创新 。 本文编译自微软研究院博客文章“Three new reinforcement learning methods aim to improve AI in gaming and beyond” 。
强化学习(Reinforcement Learning , 简称 RL)近些年的发展为游戏开发带来了令人兴奋的新机遇 , 与传统技术相比 , 强化学习可以提供指向高等级目标的奖励信号 , 并让游戏角色为游戏互动中自然出现的数据驱动行为 , 制定出获得高额奖励的最优策略 , 从而有助于设计出更加生动的游戏角色 。
由微软剑桥研究院游戏智能组与游戏开发商 Ninja Theory 合作开发的 Paidia 项目(点击阅读原文 , 了解更多项目信息) , 致力于推进强化学习的前沿技术 , 以创造全新的游戏体验 。 特别值得一提的是 , 该项目专注于开发能够真正与人类玩家展开团队合作的游戏智能体 。
Paidia 项目研究面临的关键挑战在于 , 对于游戏开发者而言 , 如何让强化学习变得高效且可靠(例如 , 通过将其与不确定性估计和模仿学习相结合);如何构建深度学习架构 , 并赋予游戏智能体合适的能力(例如长期记忆);以及如何让游戏智能体快速适应新的游戏情境 。 下面将重点介绍一下基于这三个主要挑战 , 所进行的最新的研究进展 。
深度学习决策系统的不确定性估计 , 可以更准确
从计算机视觉到强化学习和机器翻译 , 深度学习无处不在 , 并在很多实验中取得了近乎完美的效果 。 只需提供一个数据集 , 系统就能够根据深度学习模型的“最佳推断”进行预测 。 未来 , 深度学习将会越来越多地应用于预测具有深远影响 , 且一旦判断失误便会付出沉重代价的场景中 。
不过大多数深度学习模型所采用的“最佳推断”方法的确定性并不充分 。 实际上 , 人们需要技术不仅能提供预测结果 , 还要提供相关的确定性程度 。 微软在 ICLR 2020 上发表的论文“通过拟合先验网络进行保守的不确定性估计”(Conservative Uncertainty Estimation By Fitting Prior Networks)便对这一问题进行了探索 , 并提出了随机网络蒸馏(RND , Random Network Distillation)的分析方法 , 该方法可用于估计深度学习模型的置信度 。

|强化学习三大方法,改善AI的游戏表现
本文插图
图1:预测函数(绿色)和先验函数(红色)在可见数据上达成共识(左) , 而在不可见数据上未达成共识(右)
在分析的 RND 版本中 , 不确定性模型和预测模型是相互独立的 。 其中有两种类型的神经网络:预测函数(绿色)和先验函数(红色) 。 先验神经网络是固定的 , 不会在训练期间发生改变 。 当发现一个新的数据点时 , 模型会训练预测变量对该点上的先验函数值进行适配 。 可以看到 , 在数据点附近 , 预测函数和先验函数是重叠的 。 而如果观察右侧的值 , 则会发现预测函数和先验函数之间存在巨大差距 , 与已观察到的数据点相差甚远 。
论文结果表明 , 先验值和预测值之间的差距准确地反应了模型对其输出结果确定性的影响 。 实际上 , 在对比了所获得的不确定性估计值与不确定性量化的黄金标准——通过贝叶斯推断得出的后验值之后 , 可以看到两个很有吸引力的理论特性 。 首先 , RND 返回的方差总是高于贝叶斯后验方差 , 这就是说 , 尽管 RND 返回的不确定性偏高 , 但它不会低估不确定性;其次 , 也证明了不确定性会收敛 , 也就是说 , 在用观察数据对模型进行多次训练后 , 不确定性最终会变小 。 换言之 , 随着数据越来越多 , 该模型对于自己的预测将更加确定 。


推荐阅读