AlphaGo背后这项核心技术,后来怎么样了?


导读:本文介绍AlphaGo背后的核心技术——深度强化学习 。
作者:刘驰 王占健 戴子彭 等
来源:华章科技
AlphaGo背后这项核心技术,后来怎么样了?
本文插图

01 强化学习
近年来 , 深度学习(Deep Learning, DL)作为机器学习的一个重要研究领域 , 得到了长足的发展 , 为强化学习(Reinforcement Learning, RL)提供了强有力的支撑 , 使RL能够解决以前难以处理的问题 , 例如学习直接从像素玩视频游戏 。
深度强化学习(Deep Reinforcement Learning, DRL)是DL和RL相结合的产物 , 有望彻底改变人工智能领域 。 人工智能领域的一个主要目标是生成完全自主的智能体(agent) , 这些智能体通过与环境的相互作用来学习最优行为 。
从可以感知和响应其所处环境的机器人到基于软件的与自然语言和多媒体进行交互的智能体 , 建立一个能够有效学习且实时响应的人工智能系统一直都是一项长期挑战 。 幸运的是 , DRL的出现使我们朝着建立自主系统的目标迈出了更近的一步 , 因为DRL对自主系统有更高层次的理解 。
当然 , DRL算法还有许多其他方面的应用 , 比如机器人控制技术 , 允许我们直接从现实世界中的摄像机输入来学习对机器人进行控制和操作的策略 。
AlphaGo背后这项核心技术,后来怎么样了?
本文插图

02 强化学习简介
在讨论深度神经网络对RL的贡献之前 , 我们先来介绍一下RL的一般领域 。
RL的本质是互动学习 , 即让智能体与其外界环境进行交互 。 智能体根据自己每次感知到的外界环境状态来选择相应的动作 , 以对环境进行响应 , 然后观测该动作所造成的结果(或好或坏 , 结果的评判来自某种特殊的奖励管控机制) , 并根据结果来调整自身动作选择机制 , 最终让智能体可以对外界环境达到最优的响应 , 从而获得最好的结果(智能体针对外界环境采取一系列动作后获得的最大奖赏值 , 也称为累积奖赏值、预期回报) 。
所以 , RL的目标是使智能体在与环境的交互过程中获得最大的累积奖赏值 , 从而学习到对自身动作的最优控制方法 。 这种试错学习的方法源于行为主义心理学 , 是RL的主要基础之一 。 另一个关键基础是最优控制 , 它提供了支撑该领域的数学形式 , 特别是DP 。
为了便于对RL模型结构的理解 , 我们首先对RL模型中最关键的三个部分进行描述 。
1. 状态(state)
如图1.2所示 , 状态其实就是智能体所处的外界环境信息 , 该图中描述的状态就是一个石板铺成的具有间隔的桥面 。 而环境状态的具体表现形式可以有很多种 , 例如多维数组、图像和视频等 。
外界环境的状态需要能够准确地描述外界环境 , 尽可能将有效信息包括在内 , 通常越充足的信息越有利于算法的学习 。 状态要着重体现出外界环境的特征 。
AlphaGo背后这项核心技术,后来怎么样了?
本文插图

▲图1.2 外界环境状态示意图
2. 动作(action)或行动
如图1.3所示 , 动作就是智能体(多关节木头人)在感知到所处的外界环境状态后所要采取的行为 , 如跳跃、奔跑、转弯等 , 是对外界环境的一种反馈响应 。 当然 , 动作的表现形式既可以是离散的 , 也可以是连续的 。
AlphaGo背后这项核心技术,后来怎么样了?
本文插图

▲图1.3 智能体动作响应示意图
3. 奖励(reward)
智能体感知到外界环境并采取动作后所获得的奖赏值 。 奖赏值来源于根据实际场景定义的某种奖励机制 , 包括正向奖励和负向奖励 。 正向奖励会激励智能体趋向于学习该动作 , 负向奖励与之相反 。


推荐阅读