征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题

征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
【新智元导读】ConQUR-ConQUR是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题 。 在实际应用场景中 , 深度学习 , 神经网络与Q-learning的结合会导致其在某种状态(state)下选择「非合法性」(non-feasible)的动作(action) 。 这种情况称之为妄想偏见(delusionalbias) , 其引起Q-Learning在收敛与应用上的不稳定性 , 继而触发落地上的种种问题 。
众所周知 , 强化学习在应用落地和理论之间存在巨大的偏差 , 理想很美好 , 现实很骨感 。 GoogleAI围绕这个复杂的问题 , 在NeurIPS2018最佳论文探讨并指出妄想偏见成为Q-Learning部署落地中的一个重要问题 。 而ConQUR算法更是NeurIPS2018的辉煌延续 , 提出了一个突破式落地方案 , 也成功入选了ICML2020.
ConQUR-ConQUR是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题 。 在实际应用场景中 , 深度学习 , 神经网络与Q-learning的结合会导致其在某种状态(state)下选择“非合法性”(non-feasible)的动作(action) 。 这种情况称之为妄想偏见(delusionalbias) , 其引起Q-Learning在收敛与应用上的不稳定性 , 继而触发落地上的种种问题 。
为方便读者更好理解妄想偏见 , 请看图下的例子
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为一个MDP例子 , 总共有三个状态(以圆圈中的数字表示) , 在S1和S2中 , 可选动作有a,b.绿色的$50示为+50奖励 , 红色侧反之 。 在Q-Learning落地中 , 所Q值通常以线性函数f((s,a))来拟合 , 其中(s,a)是已知的固定特征(为上图表示),而为待拟合参数 。
在这个简单的MDP例子中 , 如果我们直接上Q-Learning , 所学习到的策略为下图所显示 , 很明显地 , 这并非最优策略 。 为什么会出现这种情况呢?因为在每次我们利用Q-Learning算法中的Bellmanbackup来求解之时 , 我并没有考虑其中“合法性”的问题 。
因此 , 当我们做Q更新时遇到了“非合法”的动作状态时 , 所学习和拟合到参数为“非一致”(Non-consistent) 。 最终 , 通过Q-Learning学习出的策略并非最优(如下图显示) 。
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为Q-Learning所学习到的非最优策略
如果解决妄想偏见?
ConQUR的核心部分利用了强化学习中的“一致性”(Consistency)去解决了此问题 。 其算法为以下两个主要部分“
其一 , 在每次Q更新中注入一个简单且高效的ConsistencyPenalization , 使其每次Q更新中 , Policy上将会达到更大程度上的“一致”(此“一致”指的是和更新前的Q函数相比) 。 当Policy和Value达到一致之后 , 所拟合的Q函数将最大情度地缓冲了妄想偏见 。
其二 , ConQUR提出了一套搜索框架 , 在众多的informationset(信息集)中 , 寻找最“一致”且“纯净”(Delusion-Free)的QRegressor 。 其搜索策略为广度优先搜索来构建搜索树 , 可更加合理的降低内存需求和提高搜索算法的效率 。
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为ConQUR算法的演示 。
实验结果:
与传统的深度Q学习(DeepQ-Learning)相比 , ConQUR在所有的Atari游戏中大获全胜 , 取得重量级别的性能提升:高达125%!
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为ConQUR在Solaris中学习到更“纯净”的决策 。
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为ConQUR在Gravitar和SpaceInvaders的表现 。
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为ConQUR与传统DQN的比较 。
征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题
文章图片
上图为ConQUR在Atari上的强势表现 。
引申应用
ConQUR有效的解决了强化学习在理论与实际落地的问题 。 其应用可延伸至各行各业包括:机器人、计算机视觉、计算机系统、健康、交通、教育、金融、能源、商业管理、游戏、自动驾驶等等 。
金融上的应用:近年来 , 传统的算法交易得到了发展 , 如今高计算能力的系统已经实现了任务的自动化 。 本文提出的ConQUR算法可在复杂且高频的大数据中发掘其潜能 , 从繁而复杂的金融交易环境上有效的学习到“纯净”且高效的交易策略 , 从而辅助交易员来制定有效实时的交易计划并走上人生巅峰 。
教育上的应用:以往线下教学模式受限于师生比例 , 老师的精力和水平难以顾全每个学生的学习 。 本文提出的ConQUR算法可针对每个老师与每个学生中制作出独立的最优价值函数(optimalvaluefunction) , 从而实现个性化教学的自适应教育 , 并让学生更有效的吸收课本知识 。
无人驾驶上的应用:随着L4与更高级无人驾驶技术的发展 , 高效而安全的路径规划越来越重要 。 ConQUR算法能通过和环境 , 车辆 , 行人与无人驾驶汽车之间的交互中 , 提供在相应的观测中采取最优行为 , 通过提供更高效的路径规划(PathPlannng)从而帮助无人驾驶技术更上一层楼 。
【征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题】健康上的应用:在人们日益关注健康的今天 , 如何监测自己的身体状况并立刻作出相对的应变是健康的关键 。 ConQUR将会摇身一变成为AI健康师为每个用户提供主动和个性化的决策与服务 。


    推荐阅读