『游戏』谷歌大脑新研究：单一任务的强化学习遇瓶颈？是「灾难性遗忘」的锅！图灵奖得主Bengio参与鱼羊|发自|凹非寺

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI
雅达利游戏，又被推上了强化学习基础问题研究的舞台。
来自谷歌大脑的最新研究提出，强化学习虽好，效率却很低下，这是为啥呢？
——因为AI遭遇了「灾难性遗忘」！
所谓灾难性遗忘，是机器学习中一种常见的现象。在深度神经网络学习不同任务的时候，相关权重的快速变化会损害先前任务的表现。
而现在，这项图灵奖得主Bengio参与的研究证明，在街机学习环境（ALE）的单个任务中， AI也遇到了灾难性遗忘的问题。
研究人员还发现，在他们提出的Memento observation中，在原始智能体遭遇瓶颈的时候，换上一只相同架构的智能体接着训练，就能取得新的突破。
单一游戏中的「灾难性干扰」
在街机学习环境（Arcade Learning Environment ， ALE）中，多任务研究通常基于一个假设：一项任务对应一个游戏，多任务学习对应多个游戏或不同的游戏模式。
研究人员对这一假设产生了质疑。
单一游戏中，是否存在复合的学习目标？也就是说，是否存在这样一种干扰，让AI觉得它既要蹲着又要往前跑？
来自谷歌大脑的研究团队挑选了「蒙特祖玛的复仇」作为研究场景。
「蒙特祖玛的复仇」被认为是雅达利游戏中最难的游戏之一，奖励稀疏，目标结构复杂。

图片

研究人员观察到， CTS模型计算的Rainbow智能体，会在6600分的时候到达瓶颈。更长时间的训练和更大的模型大小都不能有所突破。

图片

不过，只需从这个位置开始，换上一只具有相同架构的新智能体，就能突破到8000分的水平。
如此再重置一次， AI的最高分就来到了14500分。

图片

需要说明的是，在换上新智能体的时候，其权重设置与初始的智能体无关，学习进度和权重更新也不会影响到前一个智能体。
研究人员给这种现象起了一个名字，叫Memento observation 。

图片

Memento observation表明，探索策略不是限制AI在这个游戏中得分的主要因素。
原因是，智能体无法在不降低第一阶段游戏性能的情况下，集成新阶段游戏的信息，和在新区域中学习值函数。
也就是说，在稀疏奖励信号环境中，通过新的奖励集成的知识，可能会干扰到过去掌握的策略。

图片

上图是整个训练过程中，对游戏的前五个环境进行采样的频率。
在训练早期（左列），因为尚未发现之后的环节，智能体总是在第一阶段进行独立训练。到了训练中期，智能体的训练开始结合上下文，这就可能会导致干扰。而到了后期，就只会在最后一个阶段对智能体进行训练，这就会导致灾难性遗忘。
并且，这种现象广泛适用。

图片

上面这张图中，每柱对应一个不同的游戏，其高度代表Rainbow Memento智能体相对于Rainbow基线增长的百分比。
在整个ALE中， Rainbow Memento智能体在75%的游戏中表现有所提升，其中性能提升的中位数是25% 。
这项研究证明，在深度强化学习中，单个游戏中的AI无法持续学习，是因为存在「灾难性干扰」。
并且，这一发现还表明，先前对于「任务」构成的理解可能是存在误导的。研究人员认为，理清这些问题，将对强化学习的许多基础问题产生深远影响。

『游戏』谷歌大脑新研究：单一任务的强化学习遇瓶颈？是「灾难性遗忘」的锅！图灵奖得主Bengio参与

推荐阅读

「陈法蓉」陈法蓉奔六年纪有少女心，衣服上带荷叶花边，短发也能穿出女人味

旅途结束返程的诗句?旅游返程的唯美句子

幽默搞笑段子集锦|幽默笑话：男友在我脖子上留了个吻痕，回家被老妈发现了！，原创

上海浦东报告1例确诊病例：浦东机场货运站从事搬运工作已追踪密接者26人

内心忐忑的小时|朱一龙为杨蓉庆生，延续6年的祝福太暖心，祝你做自己的光，原创

补肾|肾虚“别忙补”，老中医：“3招”补肾气，简单易学！

『澳大利亚』澳称鉴于印太地区形势变化将采购远程导弹，中方表态

华炬名茶携手知名酒庄演绎茶酒文化

《武学宗师》启巡演：以中国式话剧展近代武学名家之魂

健康|十个女的九个有炎症，坚持吃一物，杀菌消炎，子宫越来越健康

天冷了，吃牛肉不如吃它，上锅蒸一蒸，清香鲜美，冬天的佳肴

「国民党」此人是国民党少校，却指挥得动少将，建国后在刑场上被解放军救下

喝红茶的点心,广州茶的特点

科技创新▲中国天量的货币应该流向哪里？

[牛仔裤]牛仔裤修饰身形的效果非常的好，简约而又不失淑女的时尚气质

百家讲坛讲哪几集可以帮助高中的学习

哈萨克斯坦明日直播总统大选电视辩论，7名候选人将一逞辩才

冷天早餐，不糊弄不将就，学学7天不重样，孩子吃得好精神也充足

蓓小西|从打扮中就看得出，谁的野心比较大，范冰冰、马苏同框高调看秀

买鲈鱼时，要分清“河鲈”和“海鲈”，区别挺大，弄懂再买不吃亏