苏眠月|使用价值迭代网络进行规划虽然强化学习算法的设计使得该策略应该

反应策略深度强化学习的第一个主要成就是着名的DQN算法在各种Atari视频游戏中的人类水平表现，其中神经网络学习使用原始屏幕像素作为输入来玩游戏。在强化学习中，我们希望学习一种将状态映射到行动的政策，以便最大化累积的奖励。例如，在DQN论文中，神经网络是卷积神经网络，它将屏幕图像作为输入并输出可能动作的分数。
虽然强化学习算法的设计使得该策略应该学会选择具有长期益处的行为，但我们从策略中获得的信息仅适用于当前状态。这称为响应策略，它是一种策略，将当前状态映射到应立即采取的操作，或映射到操作的概率分布。
拥有完整的计划允许我们使用外部知识对其进行评估并防止采取危险行为。例如，如果自动驾驶汽车希望改变车道但是突然汽车接近非常快，比模拟汽车在训练期间更快，则外部程序可以预测当前计划的轨迹朝向碰撞并且中止操纵。这对于被动策略来说要困难得多，在这种策略中可能难以预测场景在播出之前如何结束。
希望制定完整计划的另一个原因是它可能会使我们的政策表现更好。也许通过强制它提前计划，我们可能会限制我们的政策更加一致，并能够在看不见的情况下更好地调整，这正是我们想要的。
马尔可夫决策过程规划问题的一个非常常见的模型是马尔可夫决策过程，即MDP 。在MDP中，我们将世界定义为一组状态S ，一组可能采取的行动A ，一个奖励函数R和一个过渡模型P.它们一起构成了元组：

苏眠月|使用价值迭代网络进行规划

推荐阅读

军事|我第23批赴刚果（金）维和部队第一梯队启程回国

喝酒前喝酸奶还是牛奶？

周到|榜首大战上港目标三分不变

百合医生讲糖血糖高不高，低头看看脚，若没有这4种表现，你就偷着乐吧

消费者起诉“三只松鼠”：广告宣传语涉嫌虚假宣传

上海宝山|上海家庭教育示范校评估结果公示宝山有12所

全世界最贵的地价在哪里世界上最好的地图

环球网@轻症患者在家隔离，西班牙医院饱和

查同住人信息记录酒店同住人也会查到吗

第一财经|美征收关税增加电动车供应链成本特斯拉盈利能力堪忧|科技心语

时光Ttttime|苏提达好心机！拍摄王室官方照做史努比美甲，一举三得讨好泰王

『利息』彩票中奖1000万，这样存进银行，每月利息超过一年人均可支配收入

『31省份新增27例』31省份新增27例 22例为本土病例

吃酵母粉上火吗？酵母粉的营养价值有哪些?

虎扑足球|可能去热刺或者米兰，踢球者：德国国脚科赫拒绝本菲卡

世界遗产在中国|《世界遗产在中国》摄影展在东京开幕

普通男士照片大全,普通男生照片大全图片-

金宝哥讲故事|回到蜀国东山再起，刘备最后能否一统天下？，关羽若逃过吕蒙追杀

夏季北京旅游怎么安排？

美丽萍说|美女街拍：黑色连衣裙搭配圆筒状手提包，款式新颖，潮流时尚