|强化学习三大方法，改善AI的游戏表现( 三 )

VariBAD 方法引入了一种灵活的编解码器体系结构，对智能体的设定分布进行建模，并根据当前设定调节其策略，以学习最优行动。通过实验证明，这种方法能够产生一种强大而灵活的解决方案，在多项研究任务中均实现了贝叶斯最优行为。目前，研究人员也正在研究如何利用此类方法让游戏智能体可以迅速适应新的游戏情境。

本文插图
图4：不同探索策略的图示。
（a）场景：智能体从左下方开始，在灰色区域的某处存在一个目标位置，但智能体并不知道。
（b）贝叶斯最优智能体策略，系统地搜索可能的网格单元以找到目标位置，以蓝实线（到目前为止的互动）和蓝虚线（未来的互动）标示，在背景中，以灰色（p = 1 /（余下可能目标位置数量，或可能包含目标位置的格子数量）和白色（p = 0））显示简化的后验值。
（c）后验采样机制对可能的目标位置（红色方块）反复采样，并采用最短路径到达该位置，这是次优策略，一旦发现目标位置，每个样本都将与真实的目标位置相匹配，则表明智能体采取了最佳行动。
（d）VariBAD 学习的探索策略。灰色背景表示智能体已学习到的后验近似值。
游戏智能研究，继续开拔
微软剑桥研究院的独立研究以及与 Ninja Theory 的合作探索，围绕游戏智能主题做了不少创新性的研究。其中，研究的关键方向之一就是创建能够真正学会与人类玩家展开合作的 AI 游戏智能体——无论是基于团队作战的游戏，还是在游戏之外真实世界中的应用（例如虚拟助手）。研究人员希望能够让游戏智能体更好地侦测陌生场景，并利用示例信息加速学习，创建能够根据较少数据学习记忆长效依存关系及其后果的智能体，并让智能体可以迅速适应新的情况或人类合作者。而文章上述所介绍的研究成果，正是实现这些目标的关键步骤。
其实强化学习的入门比你想象的更容易，微软 Azure 提供了包括 Azure 机器学习（https://azure.microsoft.com/zh-cn/）在内的工具和资源，其中就包括强化学习训练环境、资料库和虚拟机等。

|强化学习三大方法，改善AI的游戏表现( 三 )

推荐阅读

过年待客，学会这6道快手菜，客人吃得好，倍儿长面儿

和讯科技▲2019年其净利润同比下滑1186.39%，拉夏贝尔新增两条限制高消费信息

长脖子妈咪|保持年轻漂亮秘诀，主要是这几点，34岁二胎宝妈外表如同16岁少女

西班牙_时政|欧洲多国采取措施限制民众前往西班牙

环球时报新媒体|多数香港反对派议员留任立法会，未来只有两个选择

如何设置为一次性同时打印以下工作表，Excel，中的多个工作表

我们应该如何分辨PU皮革与真皮？ pu皮是什么？

「新建」北京40家新建公园“五一”前集中开放

【ting丶见】世界上“最坚硬”的几种食物：牛肉干都不算啥

上海宝山|谁“羽”争锋 2020 “战FUN宝山”招商银行杯业余羽毛球团体联赛启动招募

观点|企业生死劫：如何通过破产重整涅槃重生 | 嘉宾观点

130年前东京美人比赛|130年前东京美人比赛：有些美人真能美得跨越古今

IT之家采用长鑫颗粒，光威弈PRO内存超频至4000MHz

玩家|DNF：为防止旭旭宝宝脱坑，策划放弃强推改造？宝哥：1个亿保住了

宫颈癌瞄准20岁女性 5个坏习惯引发宫颈癌太平公主 5次危机 4大丰胸妙招塑造乳房

中国青年网特朗普这样说…，纳瓦罗批美疾控中心在新冠检测上让美失望

类似复方薄荷脑鼻用吸入剂这种能让鼻子暂时清爽的药物常用有危害吗

自主品牌能否重新攻破40%的“市占率红线”| 推本溯源

揭穿三缸机的谎言：缸数少更省油是谬论

台湾|郭碧婷爸爸美食招待向佐,推断向佐应已经抵达台湾,陪郭碧婷待产