通用AlphaGo诞生？MuZero在多种棋类游戏中超越人类( 二 ) _小知识

、价值函数

文章插图

和即时嘉奖

文章插图

，其中 u. 表现视察到的准确嘉奖，表现用来选择实时行为的策略，表现环境的贴现函数（discount function）。
在每个时光步 t 上， MuZero 模型由表征函数、动态函数和预测函数结合表征。在本文中，研讨者对动态函数进行了确实的表征。策略和价值函数则通过预测函数

文章插图

并依据内部状况 s^k 来盘算，这与 AlphaZero 的结合策略和价值网络类似。
给定这样一个模型，则有可能在基于过往视察成果 O_1, , O_t 的情形下查找基于假设的未来轨迹 a^1, , a^k 。例如，一个简略的搜索可以轻松地选择最大化价值函数的 k 步动作序列。更广泛地说，我们或允许以将任何 MDP（马尔科夫决策进程）计划算法运用于由动态函数推导出的内部嘉奖和状况空间。
对于每个假设的时光步 k ，模型的所有参数接收结合训练，从而在 k 个实际的时光步后，对策略、价值和嘉奖与它们各自对应的目的值进行准确的匹配。与 AlphaZero 类似，晋升后的策略目的通过蒙特卡洛树（MCTS）搜索生成。第一个目的是最小化预测策略 p^k_t 和搜索策略 _t+k 之间的误差；第二个目的是最小化预测值 v^k_t 和价值目的 z_t+k 之间的误差；第三个目的是最小化预测嘉奖 r^k_t 和视察到的嘉奖 u_t+k 之间的误差。最后添加 L2 正则化项，得出以下总丧失：

文章插图

试验成果
在试验中，研讨者将 MuZero 算法运用于围棋、国际象棋和日本将棋等经典棋盘游戏中，作为挑衅计划问题的基准；同时又运用于雅达利游戏环境中的 57 个游戏，作为视觉庞杂强化学习范畴的基准。
下图 2 展现了 MuZero 算法在每个游戏训练中的性能。在围棋游戏中，尽管搜索树中每个节点的盘算量小于 AlphaZero ，但 MuZero 的性能依然略微超过 AlphaZero 。这表明 MuZero 可能在搜索树中缓存自身盘算，并应用动态模型的每个附加运用来对地位发生更深的懂得。

文章插图

图 2：MuZero 算法分离在国际象棋、日本将棋、围棋和雅达利游戏训练中的评估成果。在国际象棋、日本将棋和围棋游戏中，横坐标表现训练步骤数目，纵坐标表现 Elo 评分。

文章插图

表 1：雅达利游戏中 MuZero 与先前智能体的比较。研讨者分离展现了大范围（表上部分）和小范围（表下部分）数据设置下 MuZero 与其他智能体的比较成果，表明 MuZero 在平均分、得分中位数、Env. Frames、训练时光和训练步骤五项评估指标（红框）取得了新的 SOTA 成果。
为了懂得 MuZero 中模型的作用，研讨者还重点在围棋和吃豆人雅达利游戏中进行了以下几项试验。他们首先在围棋的典范计划问题上测试了计划的可扩大性（下图 3A）。此外，他们还研讨了所有雅达利游戏中计划的可扩大性（下图 3B）。接着，他们将自己基于模型的学习算法与其他类似的无模型学习算法进行了比拟（下图 3C）。