AlphaGo背后这项核心技术,后来怎么样了?( 四 )
本文插图
▲图1.9 AlphaGo使用DRL算法学习70小时效果示意图
然后 , 当其继续学习到19小时的时候 , AlphaGo Zero就已经领悟到一些高级围棋策略的基础性知识 , 例如 , 生死、每一步的影响和棋盘布局等 。 最终当使用DRL算法学习70小时的时候 , AlphaGo Zero的棋艺已经超过了人类顶级水平 。
DRL算法由于能够基于深度神经网络实现从感知到决策控制的端到端自学习 , 因此具有非常广阔的应用前景 , 比如在机器人控制、自然语言处理和计算机视觉等领域都取得了一定的成功 , 它的发展也将进一步推动人工智能的革命 。
图1.10展示了DRL的部分应用领域 。
本文插图
▲图1.10 DRL算法的部分应用领域
- 其中 , 图1.10a是DRL技术在电子游戏方面的应用 , 其利用DRL技术学习控制策略为游戏主体提供动作 , 在某些游戏方面其能力已经超过了人类顶级水平 。
- 图1.10b是机器人足球比赛 , 利用机器人观察到的周边环境 , 通过DRL模型给出具体的动作指令 , 控制足球机器人之间的竞争和协作 。
- 图1.10c是无人车领域 , 根据汽车传感器获得的环境信息 , 利用DRL技术对汽车的行为进行控制 , 比如加速、刹车和转向等 。
- 图1.10d是无人机或无人机群 , DRL控制模型可以控制每个无人机对环境的自身行为响应 , 也可以为无人机群的协作任务提供自主控制策略 。
关于作者:刘驰 , 北京理工大学计算机学院副院长、教授、博士生导师 , 英国工程技术学会会士(IET Fellow) , IEEE高级会员(IEEE Senior Member) , 英国计算机学会会士(Fellow of British Computer Society)和英国皇家艺术学会会士(Fellow of Royal Society of Arts) 。
本文摘编自《深度强化学习:学术前沿与实战应用》 , 经出版方授权发布 。
本文插图
延伸阅读《深度强化学习》
推荐语:更全面的深度强化学习指南!详解深度强化学习领域近年来重要进展及其典型应用场景 , 涵盖新的理论算法、工程实现和领域应用 。
推荐阅读
- 平台|美股上市公司微贷网被查背后 车贷模式之殇何解?
- 美国南卡罗来纳州发生枪击案真相是什么?美国南卡罗来纳州发生枪击案背后的真相
- 高考倒计时2天真相是什么?高考倒计时2天背后的真相
- 1岁女儿哭闹妈妈将其捂死是什么原因?1岁女儿哭闹妈妈将其捂死背后的真相
- 借款人|红星资本局|微贷网被立案背后:抛出资管协议,投资人曾在止损与安全之间纠结
- 格局|大鳄涌入,保险系公募基金迎新格局!行业存在感尚待提升,这项业务或成杀手锏
- 中新经纬|代理退保的背后:收40%佣金,有人招学员称2小时学会
- 里尚七七本人|徐静蕾黄立行合体,老徐穿背带裤还像小姑娘,黄立行背后偷瞄好甜
- 平台|红星资本局|微贷网被立案背后:抛出资管协议,投资人曾在止损与安全之间纠结
- 人寿|大鳄涌入,保险系公募基金迎新格局!行业存在感尚待提升,这项业务或成杀手锏
