强化学习中,对于连续的动作,value-based是无能为力的
要分清value-based方法和policy-based方法的优化目标不同:
对于value-based方法,它的优化目标是:
也就是去学习每个状态下不同的动作的预期收益是多少,而在连续动作中,'不同动作'变成了无限个动作,value-based方法自然很难学习
【强化学习中,对于连续的动作,value-based是无能为力的】 而policy-based方法,它的优化目标是:
也就是说它是直接最大化当前策略下奖励之和的期望,不涉及对某个特定动作进行计算,所以policy-based方法能够处理连续动作
■网友
谢邀。与policy-based方法中policy网络直接根据状态输出动作不同,value-based方法在训练时需要在某个状态下选取使Q值最大的动作,这相当于在所有连续动作上求argmax,代价是相当巨大的。如果能在有限条件下计算argmax,value-based方法也是可以用的。例如Continuous Deep Q-Learning with Model-based Acceleration中技巧性地利用二次型构造优势函数,利用二次型特点直接得到argmax 。
■网友
value-based的RL算法一般都是去学习每个状态下的值函数,学习完成后,然后在该状态下选择Q值最大的那个动作当做最优策略。而如果是连续的动作(动作很无限多个,比如说方向盘转动的角度),将无法求argmax操作啊。当然如果你非得在连续动作的场景下,使用value-based的算法,还是有办法的,最简答的就是将连续动作先离散化。
Deep Reinforcement Learning in Parameterized Action Space 连续动作参数化。
还有一个work是:Continuous Deep Q-Learning with Model-based Acceleration,利用二次型构造优势函数。
■网友
嗯我见到比较多的确实是要依靠一个策略来输出连续动作,猜测主要还是因为用一个策略网络来表达状态到连续动作的映射比较直接吧,用价值函数的输出直接参数化策略没那么直观但是也不是没人做,可以看看softQlearning。
■网友
Value-Based Methods: Q-learning, SARSA, value-iteration...本质上是对value function 的更新。
DP: 已知P, R 直接根据back diagrams 更新Temporal Difference: sample + Q-learning(off policy) or SARSA (on policy)如果action space 是连续的,那么(s, a, s\u0026#39;, r) 理论上有无限多个,因为a可以取无限多个。没有办法根据argmax来进行选择。这也是policy based RL 的pros and cons:
pros:
Effective in high-dimensional or continuous action spacesCan learn stochastic policiescons:
the naive policy based reinforcement learning (REINFORCE) gradients的variance太大因为可选择的space大
■网友
可以参考DDPG算法,相当于在dqn中引入了表示连续策略最优行为的函数,在内循环中同时更新值网络参数和行为函数参数。并且此算法一定程度上缓解了policy-base相关算法需要大量取样的问题,因为是确定性策略,相比之下样本利用率会高得多。
推荐阅读
- 5.1声道片源对于没有5.1硬件系统的用户来说有意义吗
- |常州天宁:检察建议让“忙道”回归盲道
- |强化“四个环节”做好统战工作棠张镇多措并举推动统战工作创新
- 现在在线学习视频有很多了,为啥大部分人还是喜欢下载下来观看
- 婴儿|美国儿科学会: 1岁以下婴儿不推荐学习游泳
- 媒体聚焦网络知产保护:强化企业社会责任,完善行业监管体系
- 在美国大学学习computer science 是啥样的体验
- 英雄联盟快捷键Q、E、R咋操作呢
- 作为软件工程大二的学生,学习一般,编程一般,毕业后能干些啥
- 计算机深度学习方面sci三区期刊推荐
