AlphaGo背后这项核心技术，后来怎么样了？

导读：本文介绍AlphaGo背后的核心技术——深度强化学习。
作者：刘驰王占健戴子彭等
来源：华章科技

本文插图

01 强化学习
近年来，深度学习（Deep Learning, DL）作为机器学习的一个重要研究领域，得到了长足的发展，为强化学习（Reinforcement Learning, RL）提供了强有力的支撑，使RL能够解决以前难以处理的问题，例如学习直接从像素玩视频游戏。
深度强化学习（Deep Reinforcement Learning, DRL）是DL和RL相结合的产物，有望彻底改变人工智能领域。人工智能领域的一个主要目标是生成完全自主的智能体（agent），这些智能体通过与环境的相互作用来学习最优行为。
从可以感知和响应其所处环境的机器人到基于软件的与自然语言和多媒体进行交互的智能体，建立一个能够有效学习且实时响应的人工智能系统一直都是一项长期挑战。幸运的是， DRL的出现使我们朝着建立自主系统的目标迈出了更近的一步，因为DRL对自主系统有更高层次的理解。
当然， DRL算法还有许多其他方面的应用，比如机器人控制技术，允许我们直接从现实世界中的摄像机输入来学习对机器人进行控制和操作的策略。

本文插图

02 强化学习简介
在讨论深度神经网络对RL的贡献之前，我们先来介绍一下RL的一般领域。
RL的本质是互动学习，即让智能体与其外界环境进行交互。智能体根据自己每次感知到的外界环境状态来选择相应的动作，以对环境进行响应，然后观测该动作所造成的结果（或好或坏，结果的评判来自某种特殊的奖励管控机制），并根据结果来调整自身动作选择机制，最终让智能体可以对外界环境达到最优的响应，从而获得最好的结果（智能体针对外界环境采取一系列动作后获得的最大奖赏值，也称为累积奖赏值、预期回报）。
所以， RL的目标是使智能体在与环境的交互过程中获得最大的累积奖赏值，从而学习到对自身动作的最优控制方法。这种试错学习的方法源于行为主义心理学，是RL的主要基础之一。另一个关键基础是最优控制，它提供了支撑该领域的数学形式，特别是DP 。
为了便于对RL模型结构的理解，我们首先对RL模型中最关键的三个部分进行描述。
1. 状态（state）
如图1.2所示，状态其实就是智能体所处的外界环境信息，该图中描述的状态就是一个石板铺成的具有间隔的桥面。而环境状态的具体表现形式可以有很多种，例如多维数组、图像和视频等。
外界环境的状态需要能够准确地描述外界环境，尽可能将有效信息包括在内，通常越充足的信息越有利于算法的学习。状态要着重体现出外界环境的特征。

本文插图

▲图1.2 外界环境状态示意图
2. 动作（action）或行动
如图1.3所示，动作就是智能体（多关节木头人）在感知到所处的外界环境状态后所要采取的行为，如跳跃、奔跑、转弯等，是对外界环境的一种反馈响应。当然，动作的表现形式既可以是离散的，也可以是连续的。

本文插图

▲图1.3 智能体动作响应示意图
3. 奖励（reward）
智能体感知到外界环境并采取动作后所获得的奖赏值。奖赏值来源于根据实际场景定义的某种奖励机制，包括正向奖励和负向奖励。正向奖励会激励智能体趋向于学习该动作，负向奖励与之相反。

AlphaGo背后这项核心技术，后来怎么样了？

推荐阅读

卢伟冰|月销44万台，力压华为P40 Pro成老大，卢伟冰这波操作堪称经典

车家号|竞争力再次升级？，2021款奥德赛又是大改

厦门警方：在超市内掐伤婴儿的违法人员已被依法治安拘留

第一财经|疫情打击需求，壳牌道达尔二季度均巨亏

DrG育儿|各位家长别再跟风“婴儿游泳”了，为了孩子

高工智能汽车|AEB...，数据发布！前三季度AEB前装搭载率升至3成

户型图，求设计

汽车之家|PLUS引人观，北京车展看奇瑞，火爆瑞虎8

赵丽颖|《风吹半夏》首播：躲过了赵丽颖，却被46岁女三号给惊艳了

汽车漆面除胶小妙招去除粘胶的最快方法

『小泡泡星座』怎样看得出他们的漏洞，情感中不能努力付出真心实意的3大星座

魔兽世界字体下载排行！魔兽世界怀旧服，哪个插件最好用

蔡国庆|蔡国庆家庭照曝光，网友表示：父子帅气如兄弟，妻子素颜富婆范

官方回应个税零申报等于没纳税：可开具纳税记录

陈伟霆■陈伟霆喊话粉丝送签名照：男人的温柔，藏在细节里

宇宇爱编发|今秋流行穿这5款平价又高级的鞋子，增加时髦度，品质女人最爱款式

婚姻登记，将有大变化！

日韩欧美有哪些好看的时尚节目服装化妆时尚理念等

白酒■白酒越放越值钱？鉴酒师：这3种白酒，放1000年，也没价值

王者荣耀里物理穿透和法术穿透是什么意思,王者里的穿透是干什么用的-