|强化学习三大方法,改善AI的游戏表现( 三 )


VariBAD 方法引入了一种灵活的编解码器体系结构 , 对智能体的设定分布进行建模 , 并根据当前设定调节其策略 , 以学习最优行动 。 通过实验证明 , 这种方法能够产生一种强大而灵活的解决方案 , 在多项研究任务中均实现了贝叶斯最优行为 。 目前 , 研究人员也正在研究如何利用此类方法让游戏智能体可以迅速适应新的游戏情境 。
|强化学习三大方法,改善AI的游戏表现
本文插图
图4:不同探索策略的图示 。
(a)场景:智能体从左下方开始 , 在灰色区域的某处存在一个目标位置 , 但智能体并不知道 。
(b)贝叶斯最优智能体策略 , 系统地搜索可能的网格单元以找到目标位置 , 以蓝实线(到目前为止的互动)和蓝虚线(未来的互动)标示 , 在背景中 , 以灰色(p = 1 /(余下可能目标位置数量 , 或可能包含目标位置的格子数量)和白色(p = 0))显示简化的后验值 。
(c)后验采样机制对可能的目标位置(红色方块)反复采样 , 并采用最短路径到达该位置 , 这是次优策略 , 一旦发现目标位置 , 每个样本都将与真实的目标位置相匹配 , 则表明智能体采取了最佳行动 。
(d)VariBAD 学习的探索策略 。 灰色背景表示智能体已学习到的后验近似值 。
游戏智能研究 , 继续开拔
微软剑桥研究院的独立研究以及与 Ninja Theory 的合作探索 , 围绕游戏智能主题做了不少创新性的研究 。 其中 , 研究的关键方向之一就是创建能够真正学会与人类玩家展开合作的 AI 游戏智能体——无论是基于团队作战的游戏 , 还是在游戏之外真实世界中的应用(例如虚拟助手) 。 研究人员希望能够让游戏智能体更好地侦测陌生场景 , 并利用示例信息加速学习 , 创建能够根据较少数据学习记忆长效依存关系及其后果的智能体 , 并让智能体可以迅速适应新的情况或人类合作者 。 而文章上述所介绍的研究成果 , 正是实现这些目标的关键步骤 。
其实强化学习的入门比你想象的更容易 , 微软 Azure 提供了包括 Azure 机器学习(https://azure.microsoft.com/zh-cn/)在内的工具和资源 , 其中就包括强化学习训练环境、资料库和虚拟机等 。


推荐阅读