假设我们的代理位于地图的左下角 , 并且必须安全地导航到绿色区块 。 必须区分规划轨迹或寻找政策 。 如果我们计划一个轨迹 , 我们将得到一个序列 , 指定应该采取行动的顺序 , 例如:(向上 , 向上 , 向右 , 向右 , 向右) 。 如果我们的问题是确定性的 , 选择一个方向会使我们的代理人在这个方向上有100%的机会 , 那么这将对应于轨迹:
但回到我们的例子 , 我们如何才能找到如上图所示的最优政策?对于称为值迭代的这类问题 , 存在一种经典算法 。 该算法的作用是计算当前处于某种状态可以实现的长期利益 , 通过提出问题"如果我从这个状态开始 , 我能获得的最大利润是多少?" 。 这个数量被称为MDP术语中的状态值 , 直观上很容易看出 , 如果我们知道每个州的价值 , 我们可以尝试始终转移到具有更高价值的国家并从中获益 。
假设我们知道问题中所有状态的最优值;V*(s) , 我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*(S , A) 。
推荐阅读
-
深圳深圳:八月底前全国率先实现5G网络高质量全覆盖
-
-
傲人的腹肌是怎么练出来的,别再相信那些谣言,我告诉你该怎么做
-
-
手机中国 Store应用安装量低于Google Play 但营收是它两倍,App
-
豪华车|WLTP续航660不缩水 奔驰最贵纯电车全球首发:一图读懂EQS SUV
-
-
[动力]大众新车亮相,比思域还帅气,一脚272马力,雅阁都扛不住!
-
展讯|【展讯】“蓝轩杯”威海市硬笔书法优秀作品展12月12日在威海美术馆开幕
-
-
-
-
时代|原创TFBOYS亲师弟为什么红不起来?光琢磨剑走偏锋,这两点过分了
-
翡翠|鹰击天风壮,鹏飞海浪春,带你了解翡翠鹰的寓意!
-
-
中国新闻网|加拿大总理特鲁多为助学金项目风波接受质询 称无利益冲突
-
「颖尚国际」裤腰扣个“半圆”,靓女臭美到家了,裤腿“裁两刀”
-
乐舞蹈|棕色毛绒大衣搭配浅色牛仔裤,整体造型非常简约时尚
-
华为还用美国技术?日媒曝光华为5G基站,拆解出大量美国零件
-
|因为肚子疼在胆汁中发现了虫子!医生提醒:别再乱吃了