强化学习内动态规划中的算例求解
欢迎访问主页,加RLRL qq群!
■网友
你好,我觉得这里就是要通过策略迭代(policy iteration)求解一个最优的策略(policy), 这个过程被分解成策略评估(policy evaluation)和策略提升(policy improvement)两个环节, 分别就是图里的左栏和右栏.一般来讲这两个过程是个循环迭代的过程,t时刻通过策略提升得到的新策略会作为t+1时刻要评估的策略,这里看起来并没有这样做,左栏应该一直是随机策略,右边应该是在greedy的改进这个随机策略,并在第三次就达到最优解.我不太明白“第三次迭代右边的6 9 格子”是什么意思.. 但是得到策略提升里得到新策略的方法应该是这样的: 【强化学习内动态规划中的算例求解】 
这里k=3的时候括号里的值都在左栏显示了, 所以比如第二行第二列的greedy策略就是到这个格子附近value最高的格子去,即向上或者向左.然后比如k=3左图 V((2,2)) = -2.9是根据k=2左边的图来的,用下面这个公式:
离开这个state的reward都是-1,discount是1,随机策略 -- T都是0.25.V((2,2)) = -1 + 0.25 * (-2-2-1.7-1.7)= -2.85.我也一直在学习RL,有什么不对的地方还请指正 :)图来自 Reinforcement Learning: A Survey
推荐阅读
- |强化“四个环节”做好统战工作棠张镇多措并举推动统战工作创新
- 现在在线学习视频有很多了,为啥大部分人还是喜欢下载下来观看
- 婴儿|美国儿科学会: 1岁以下婴儿不推荐学习游泳
- 媒体聚焦网络知产保护:强化企业社会责任,完善行业监管体系
- 在美国大学学习computer science 是啥样的体验
- 作为软件工程大二的学生,学习一般,编程一般,毕业后能干些啥
- 计算机深度学习方面sci三区期刊推荐
- 零基础入门学习啥语言好
- 有哪些好的学习英文的视频网站
- 马云说的大数据时代到底是,用到啥技术,如果想要学习大数据技术,要学习哪些基础的东西要先会编程么
