强化学习内动态规划中的算例求解

欢迎访问主页,加RLRL qq群!
■网友
你好,我觉得这里就是要通过策略迭代(policy iteration)求解一个最优的策略(policy), 这个过程被分解成策略评估(policy evaluation)和策略提升(policy improvement)两个环节, 分别就是图里的左栏和右栏.一般来讲这两个过程是个循环迭代的过程,t时刻通过策略提升得到的新策略会作为t+1时刻要评估的策略,这里看起来并没有这样做,左栏应该一直是随机策略,右边应该是在greedy的改进这个随机策略,并在第三次就达到最优解.我不太明白“第三次迭代右边的6 9 格子”是什么意思.. 但是得到策略提升里得到新策略的方法应该是这样的: 【强化学习内动态规划中的算例求解】 强化学习内动态规划中的算例求解

这里k=3的时候括号里的值都在左栏显示了, 所以比如第二行第二列的greedy策略就是到这个格子附近value最高的格子去,即向上或者向左.然后比如k=3左图 V((2,2)) = -2.9是根据k=2左边的图来的,用下面这个公式:强化学习内动态规划中的算例求解

离开这个state的reward都是-1,discount是1,随机策略 -- T都是0.25.V((2,2)) = -1 + 0.25 * (-2-2-1.7-1.7)= -2.85.我也一直在学习RL,有什么不对的地方还请指正 :)图来自 Reinforcement Learning: A Survey


    推荐阅读