强化学习中,对于连续的动作,value-based是无能为力的要分清value-

要分清value-based方法和policy-based方法的优化目标不同：
对于value-based方法，它的优化目标是：
$强化学习中,对于连续的动作,value-based是无能为力的$

也就是去学习每个状态下不同的动作的预期收益是多少，而在连续动作中，＇不同动作＇变成了无限个动作，value-based方法自然很难学习
【强化学习中,对于连续的动作,value-based是无能为力的】 而policy-based方法，它的优化目标是：
$强化学习中,对于连续的动作,value-based是无能为力的$

也就是说它是直接最大化当前策略下奖励之和的期望，不涉及对某个特定动作进行计算，所以policy-based方法能够处理连续动作

■网友
谢邀。与policy-based方法中policy网络直接根据状态输出动作不同，value-based方法在训练时需要在某个状态下选取使Q值最大的动作，这相当于在所有连续动作上求argmax，代价是相当巨大的。如果能在有限条件下计算argmax，value-based方法也是可以用的。例如Continuous Deep Q-Learning with Model-based Acceleration中技巧性地利用二次型构造优势函数，利用二次型特点直接得到argmax 。
■网友
value-based的RL算法一般都是去学习每个状态下的值函数，学习完成后，然后在该状态下选择Q值最大的那个动作当做最优策略。而如果是连续的动作（动作很无限多个，比如说方向盘转动的角度），将无法求argmax操作啊。当然如果你非得在连续动作的场景下，使用value-based的算法，还是有办法的，最简答的就是将连续动作先离散化。
Deep Reinforcement Learning in Parameterized Action Space 连续动作参数化。
还有一个work是：Continuous Deep Q-Learning with Model-based Acceleration，利用二次型构造优势函数。

■网友
嗯我见到比较多的确实是要依靠一个策略来输出连续动作，猜测主要还是因为用一个策略网络来表达状态到连续动作的映射比较直接吧，用价值函数的输出直接参数化策略没那么直观但是也不是没人做，可以看看softQlearning。
■网友
Value-Based Methods: Q-learning, SARSA, value-iteration...本质上是对value function 的更新。
DP: 已知P, R 直接根据back diagrams 更新Temporal Difference: sample + Q-learning(off policy) or SARSA (on policy)如果action space 是连续的，那么(s, a, s\u0026#39;, r) 理论上有无限多个，因为a可以取无限多个。没有办法根据argmax来进行选择。这也是policy based RL 的pros and cons:
pros:
Effective in high-dimensional or continuous action spacesCan learn stochastic policiescons:
the naive policy based reinforcement learning (REINFORCE) gradients的variance太大因为可选择的space大
■网友
可以参考DDPG算法，相当于在dqn中引入了表示连续策略最优行为的函数，在内循环中同时更新值网络参数和行为函数参数。并且此算法一定程度上缓解了policy-base相关算法需要大量取样的问题，因为是确定性策略，相比之下样本利用率会高得多。

强化学习中,对于连续的动作,value-based是无能为力的

推荐阅读

公司offer长啥样公司offer什么意思

北青网综合|四川宜宾市珙县发生4.1级地震，震源深度6千米

智能家▲荣耀30和荣耀v30区别

【严肃说数码】iPhone 11又获销量第一，千元机荣耀20S位列第二，还有谁？

嘴唇溃疡是什么原因(外嘴唇溃疡是什么原因造成的)

OPPO手机当最强“私有”充电协议拥有者OPPO走向“兼容”，会发生什么？

三八礼物送哪些好呢

地理标志产品,海南白沙绿茶入编中国地理标志产品大典

美国@噩耗！截至5月4日，美国内乱疫情双双爆发，特朗普想哭也晚了

电影|动画电影《白蛇2青蛇劫起》全新海报公布：许仙被青蛇嫌弃了

明朝古代最专情的帝王，一生一世只爱一人，是好皇帝也是模范丈夫

罗说NBA|快船仍未摆出最强阵容，连续12次打铁！小卡三战命中率仅26％

车辆知多少|让你也能拥有大长腿，不想穿成“矮冬瓜”这个秋冬穿好靴子

剖腹产产后一个月可以穿塑身衣吗,产后要穿收腹衣吗-

税率|契税法明年9月施行：税率未调整，或不影响购房成本

大学生如何提升自己的就业能力如何提高就业能力

电影|今年不设红地毯金鸡百花电影节低调开幕

游戏对长|G2和UOL打两场训练赛，62分钟140个人头，感觉真被峡谷之巅同化了

海外网|【战疫全时区】伊朗新增2625例确诊病例累计超27.8万例

冯题说娱乐|德布劳内不愧为“真核”，四边锋的打法更是犀利，比利时大胜冰岛