假设我们的代理位于地图的左下角 , 并且必须安全地导航到绿色区块 。 必须区分规划轨迹或寻找政策 。 如果我们计划一个轨迹 , 我们将得到一个序列 , 指定应该采取行动的顺序 , 例如:(向上 , 向上 , 向右 , 向右 , 向右) 。 如果我们的问题是确定性的 , 选择一个方向会使我们的代理人在这个方向上有100%的机会 , 那么这将对应于轨迹:
但回到我们的例子 , 我们如何才能找到如上图所示的最优政策?对于称为值迭代的这类问题 , 存在一种经典算法 。 该算法的作用是计算当前处于某种状态可以实现的长期利益 , 通过提出问题"如果我从这个状态开始 , 我能获得的最大利润是多少?" 。 这个数量被称为MDP术语中的状态值 , 直观上很容易看出 , 如果我们知道每个州的价值 , 我们可以尝试始终转移到具有更高价值的国家并从中获益 。
假设我们知道问题中所有状态的最优值;V*(s) , 我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*(S , A) 。
推荐阅读
-
烹饪|秋天常吃香菇身体好,但也要注意香菇一大禁忌,大家来了解一下吧
-
-
-
小飞看娱乐|50岁张嘉译近照,头发苍白略显老态,走路需要搀扶
-
-
上观新闻▲其中61例为境外输入病例,国家卫健委:8日新增确诊病例63例
-
三吉彩花|还记得周杰伦MV女主三吉彩花?挑战“女同”电影,入围上影节
-
-
【文史记】每天闭门不出,结果被900公里外飘来的飞机砸死,他预言死于空难
-
【真实】80年代农村真实老照片:每一张都是一段珍贵的童年记忆
-
隋唐|李元霸的双锤重800斤,换算成现代重量,有多少斤呢?
-
-
-
【楠竹一】特朗普突然精神了,终于还是伸出了援手!一架俄飞机飞往大洋彼岸
-
-
湖人|冥冥之中!湖人24比8冲上热搜!梦幻开局+致敬科比
-
中国经济网|太突然!知名国际品牌宣布关店1200家!很多人都买过……
-
-
织女星|53年前被冷冻,等待2017年被复活的美国富豪,如今现状如何
-