|强化学习三大方法,改善AI的游戏表现( 三 )
VariBAD 方法引入了一种灵活的编解码器体系结构 , 对智能体的设定分布进行建模 , 并根据当前设定调节其策略 , 以学习最优行动 。 通过实验证明 , 这种方法能够产生一种强大而灵活的解决方案 , 在多项研究任务中均实现了贝叶斯最优行为 。 目前 , 研究人员也正在研究如何利用此类方法让游戏智能体可以迅速适应新的游戏情境 。
本文插图
图4:不同探索策略的图示 。
(a)场景:智能体从左下方开始 , 在灰色区域的某处存在一个目标位置 , 但智能体并不知道 。
(b)贝叶斯最优智能体策略 , 系统地搜索可能的网格单元以找到目标位置 , 以蓝实线(到目前为止的互动)和蓝虚线(未来的互动)标示 , 在背景中 , 以灰色(p = 1 /(余下可能目标位置数量 , 或可能包含目标位置的格子数量)和白色(p = 0))显示简化的后验值 。
(c)后验采样机制对可能的目标位置(红色方块)反复采样 , 并采用最短路径到达该位置 , 这是次优策略 , 一旦发现目标位置 , 每个样本都将与真实的目标位置相匹配 , 则表明智能体采取了最佳行动 。
(d)VariBAD 学习的探索策略 。 灰色背景表示智能体已学习到的后验近似值 。
游戏智能研究 , 继续开拔
微软剑桥研究院的独立研究以及与 Ninja Theory 的合作探索 , 围绕游戏智能主题做了不少创新性的研究 。 其中 , 研究的关键方向之一就是创建能够真正学会与人类玩家展开合作的 AI 游戏智能体——无论是基于团队作战的游戏 , 还是在游戏之外真实世界中的应用(例如虚拟助手) 。 研究人员希望能够让游戏智能体更好地侦测陌生场景 , 并利用示例信息加速学习 , 创建能够根据较少数据学习记忆长效依存关系及其后果的智能体 , 并让智能体可以迅速适应新的情况或人类合作者 。 而文章上述所介绍的研究成果 , 正是实现这些目标的关键步骤 。
其实强化学习的入门比你想象的更容易 , 微软 Azure 提供了包括 Azure 机器学习(https://azure.microsoft.com/zh-cn/)在内的工具和资源 , 其中就包括强化学习训练环境、资料库和虚拟机等 。
推荐阅读
- 趣头条|【行走自贸区】江苏自贸试验区:全力支持三大片区大胆闯、大胆试、自主改
- 【】五部门出台新规强化值班律师法律援助
- 炉石一只小手|萨满的快攻形态:图腾萨,萨满的三大形态之一
- 上市|农夫山泉上市,创始人钟睒睒占股79% 或成马化腾及马云后第三大富豪
- 南昌|农夫山泉上市,创始人钟睒睒占股79% 或成马化腾及马云后第三大富豪
- 要求|花爸科普:有营养强化的辅食不一定就是婴幼儿辅食
- 上海市交通委员会|市交通委党组参加《民法典》学习会
- 人民网-财经频道|【行走自贸区】江苏自贸试验区:南京、苏州、连云港三大片区已引进2000余名高端人才
- 人民网-财经频道|【行走自贸区】江苏自贸试验区:全力支持三大片区大胆闯、大胆试、自主改 已形成115项制度创新成果
- 人民币|摩根士丹利:人民币10年内将成为世界第三大储备货币