OpenAI破解对齐难题？超级对齐负责人Jan Leike采访实录：「可扩展监督」是良策( 三 ) _OpenAI

如图所示，模型可能会出现一系列不对齐问题，这些问题从左到右严重程度不同。最普通的问题可能只是模型没有那么努力，并留下了一些它认为我们不会发现的错误。所以RLHF不会因此惩罚它。
此外还有另一个极端，模型开始进行秘密地欺骗性地对齐。它试图将这些难以检测到的「木马病毒」注入代码中，一旦你运行代码，它就会为模型提供支持。目前，GPT-4还无法做到这一点，但未来的模型可能有能力做到这一点。所以这当中的不对齐问题值得担忧。

文章插图
因此，我们希望通过实现可扩展的监督，去发现模型意识到的所有错误。
这一技术的终极目标是，模型能告诉我们它所意识到的所有代码漏洞吗？

文章插图
如果能做到这一点，那么模型就无法隐藏木马，因为如果它尝试隐藏木马病毒，它就会知道木马病毒在那里，然后它会告诉我们。我们就会立刻停止运行代码。
这也非常适合我们的通用评估协议。如果我们训练一个模型来执行这些篡改，我们会训练一个模型将错误引入代码中，然后模型会意识到引入的错误类型。
从这个意义上说，我们希望能够 100% 捕获模型本身引入代码的篡改问题。这就是我们目前正在致力于可扩展监督的工作。
Q&A
Q1：关于超级对齐，您的文章和 OpenAI 网页上写的使命是，引导和控制比我们更智能的人工智能系统。但据我所知，在控制论中，有一个原则是系统不可能控制更智能的系统。只有更智能的系统才能控制低级系统。因此如果有一个比我们人类更聪明的人工智能系统，人类就不可能控制那种系统。对此您有何看法？
Jan：我不认为这是不可能的，这就是我们目前正在努力的方向。人类还有很多优势，我们可以在比我们更聪明的系统上操作。比如说服务器，我们可以复制它。我们可以向副本询问同样的问题。我们可以提高模型的内存，可以通过可解释性来查看其激活，并尝试构建对齐探测器。而且系统看不到自己的激活情况。诸如此类。
Q2：在OpenAI的超级对齐计划中，关键的研究问题和挑战是什么？
Jan：基本上，现在有两个关于超级对齐的主要项目，可扩展的监督和泛化。我们正在尝试理解并证明模型如何从可以以高置信度监督的简单设置泛化到我们无法监督的更困难的设置。与人类监督超级智能类似，我们还无法做到让一个小模型监督大模型。例如，对于一个为 RLHF 生成偏好数据的小型语言模型，然后凭经验研究其泛化能力。
我们致力于可解释性研究，这是一个非常年轻的领域，很难说我们实际上能在该领域做多少事情。如果我们有完美的「大脑扫描仪」，我们可以测量新的网络激活，在每个时间点都具有完美的测量精度。
还有一个机械可解释性问题，试图对整个模型进行逆向工程，这似乎非常雄心勃勃。我认为我们的目标可能更专注：尝试构建对齐检测器。
第四个项目是对抗性对齐，我们故意尝试训练欺骗性的对齐模型，或更准确地说，训练未对齐的模型，这些模型试图隐藏其未对齐的情况。然后看看什么样的模型能通过评估？我们能否以可解释性的方式看待它，看看出了什么问题，并对我们的整个缓解措施进行压力测试。
Q3：你刚才提到评估比生成容易，但作为一名强化学习研究者，我的经验是培养一个好的批评家比找到一个好的演员要困难得多。有时评论家做出的预测不够好，但我们已经有了一个好演员，有非常好的表演能力。此外，判断一篇论文好不好很容易，但是判断论文中的一句话好不好却很难。根据我的理解，您的目标或评价是否主要关注高层的活动，而不是底层的活动，例如活动中的每个动作？您有何评论？
Jan：强化学习场景下的「评论家」并不是真正的模型评价者。我认为正确的类比应该是奖励函数和智能体，而奖励函数仍然可以依赖于每一个时间步骤和每一个行动，但它通常是关于结果的。结果通常是很容易评估的事情，但制定出真正完成任务的策略是很难的。
Q4：一些人认为可以通过引用信息规则来构建「AI 宪法」，并且可以以类似于标签原则的方式来调节AI的价值，从而提高AI的安全性。这种方法可行吗?有哪些限制和挑战?