苏眠月|使用价值迭代网络进行规划( 二 ) 虽然强化学习算法的设计使得该策略应该

假设我们的代理位于地图的左下角，并且必须安全地导航到绿色区块。必须区分规划轨迹或寻找政策。如果我们计划一个轨迹，我们将得到一个序列，指定应该采取行动的顺序，例如：（向上，向上，向右，向右，向右）。如果我们的问题是确定性的，选择一个方向会使我们的代理人在这个方向上有100％的机会，那么这将对应于轨迹：
但回到我们的例子，我们如何才能找到如上图所示的最优政策？对于称为值迭代的这类问题，存在一种经典算法。该算法的作用是计算当前处于某种状态可以实现的长期利益，通过提出问题"如果我从这个状态开始，我能获得的最大利润是多少？" 。这个数量被称为MDP术语中的状态值，直观上很容易看出，如果我们知道每个州的价值，我们可以尝试始终转移到具有更高价值的国家并从中获益。
假设我们知道问题中所有状态的最优值;V*（s），我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*（S ， A）。

苏眠月|使用价值迭代网络进行规划( 二 )

推荐阅读

央视新闻|壮观！超大迁徙藏羚羊队伍绵延近6公里

全球十大高跟鞋奢侈品牌排行高跟鞋排名

广西曾经是中国主要产金地之一，看谁家曾经躺在金矿床上

澳大利亚|美国这次玩大了！澳大利亚针对美国撤馆表态：澳洲跟不起了！

「和新疆生产」4月5日湖北新增确诊、新增疑似、现有疑似病例均为0

|你遇到过热情的东北人吗？看了一眼，对面把没吃的菜端来了

中芯国际梁孟松请辞，公开发表辞职信，新任CEO真的这么厉害吗

「失眠」夜里翻来覆去，经常失眠，和什么有关？调节睡眠妙招，做一个也好

＞＞＞|大湾区科创大赛特约·南方+早班车 | 台风“红霞”将给广东带来暴雨大风

|澳大利亚女子掷重金装扮腊肠犬把自己衣柜给狗狗用

主持人|51岁主持人因癌症离世，生前自行办好所有后事，父亲上个月刚过世

名校毕业生去哪儿了？“双一流”高校公布就业成绩单

里弗斯|小里弗斯轰41+6+4仍无缘今日最佳！对不起！你碰上比哈登还猛之人了

【可怕】71岁大妈流“鼻涕”一个月，医生竟说“你流的是脑脊液”……

带你搞笑到天黑■但球员不想留，法甲：巴黎可花费6500万虚拟体育买断万博伊卡尔迪

青年|IG教练赛前去LNG休息间“搞心态”，一句话惹怒XX!

#SDCAM试玩评测#Mars，拥有8.6mm大尺寸动圈单元的真无线蓝牙耳机体验，JEET

芝加哥一殡仪馆附近突发枪击事件▲突发！芝加哥一殡仪馆附近突发枪击事件

极客|玩转语音实时转写！讯飞智能耳机iFLYBUDS入手小测

淘宝特价版一键铺货我的商品价格过低一键铺货到淘宝特价版需要多少等级才可以