强化学习内动态规划中的算例求解欢迎访问主页

欢迎访问主页，加RLRL qq群！
■网友
你好,我觉得这里就是要通过策略迭代(policy iteration)求解一个最优的策略(policy), 这个过程被分解成策略评估(policy evaluation)和策略提升(policy improvement)两个环节, 分别就是图里的左栏和右栏.一般来讲这两个过程是个循环迭代的过程，t时刻通过策略提升得到的新策略会作为t+1时刻要评估的策略,这里看起来并没有这样做,左栏应该一直是随机策略,右边应该是在greedy的改进这个随机策略,并在第三次就达到最优解.我不太明白“第三次迭代右边的6 9 格子”是什么意思.. 但是得到策略提升里得到新策略的方法应该是这样的： 【强化学习内动态规划中的算例求解】

这里k=3的时候括号里的值都在左栏显示了, 所以比如第二行第二列的greedy策略就是到这个格子附近value最高的格子去，即向上或者向左.然后比如k=3左图 V((2,2)) = -2.9是根据k=2左边的图来的，用下面这个公式：

离开这个state的reward都是-1，discount是1，随机策略 -- T都是0.25.V((2,2)) = -1 + 0.25 * （-2-2-1.7-1.7）= -2.85.我也一直在学习RL，有什么不对的地方还请指正 :)图来自 Reinforcement Learning: A Survey

强化学习内动态规划中的算例求解

推荐阅读

『酒泉看点』酒泉这个地区积极推进政策性农业保险

环球网27英寸iMac更新：10代酷睿处理器+T2新品+1080p 摄像头

刘德华|刘德华哽咽落泪唱《17岁》，字字句句饱含感情，唱出了自己的心声

什么叫籍贯所在地什么叫籍贯

夏天膝盖发凉怎么治疗

明略科技智慧电力亮相WAIC-助力电力行业智能化转型

七类人吃花生，对身体百害无一益

超美时尚屋|大学学霸写的浪漫情书，证实语言就是门艺术，女生看后打动流泪！

瑞幸|陆正耀继续担任瑞幸咖啡董事长公司股票几近一文不值

呼吸疾病|只是咳嗽，为什么医生却说你得了哮喘

历史见闻|129名保持战斗姿势的战士被冻成冰雕，只为了守住战壕，1950年

龙抬头十大禁忌是什么

这周穿什么？简单又实用的职场穿搭其实是全身就突出一个点

牛嵩山和■“有幸完成这次任务，值了！”──记国网天津市电力公司后勤部副主任牛嵩山

云南省普洱市职业教育中心普洱市中小学继续教育

顺丰|微博CEO质问顺丰上热搜：官方提示不明到付件请拒收别贪小便宜

我的极刻智能减肥了解一下！，从头瘦到脚

把一个孩子从婴儿养到上大学是一种怎么样的体验可以分为几个阶段

黛彤颜|如何探寻社交电商新出路，互联网下半场

『东北菜』东北“最豪横”的5道菜，杀猪菜榜上有名，全吃过才叫正宗东北人