OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策( 四 )


Jan:我不认为「宪法 AI」(Constitutional AI)是过度可扩展的监督,我不认为它本身解决了对齐的难题 。所以如果你想在一个困难的任务中通过编写「宪法」监督人工智能,你可以像运行 RLHF 一样,看看会发生什么 。但问题是,你不知道它是否正确地工作,无法进行评估 。一般来说,当你评估「宪法 AI」时,需要创建一个验证集,有一堆人类对偏好的注释,然后衡量「宪法」的泛化能力 。在可扩展的监督设置下,你仍然需要这样做 。您仍然需要解决如何评估任务的问题 。「宪法 AI」确实让很多事情变得容易了 。总的来说,我认为可以把它看作是RLHF的一个非常重要的改进,但是我不认为它在这个难题上有什么进展 。
Q5:我们人类的价值是如何下降的?在培养我们的人类价值方面,你最好的社会系统活动是什么?也许联邦学习真正的价值对齐是关于为什么我们的社会和价值观是这样的 。
黄铁军:这是一个非常重要的问题,我同意人工智能系统将有一个与人类的价值不同的价值空间,我们所信任的不是人工智能系统 , 而是价值空间,即人工智能系统的共识 。例如,我不能完全相信任何人,但我相信人类的结果,例如,即使我们不相信科学家本人,但是我们却可以相信他论文和演讲中的某些经过人们讨论的论点 。
人工智能系统的价值比任何特定的人工智能系统本身都重要 。我相信,未来的人工智能系统有一个价值世界,人类有一个价值世界 。有些价值相契合,有些价值需要辩论,最后构建一个人工智能和人类普适的价值体系 。
Q6:如何使模型适应不同文化和背景的人?
Jan:现在没有一个完美的答案 。你可以做一些很有效的事情 。比如,通过向 ChatGPT 输入 prompt,可以先向语言模型输入一段关于国家和文化背景的信息,甚至是关于用户的信息 。然后你需要从那个地区或了解这个文化背景的人里面找一些人参与训练 。针对特定的情境写下问题的回答,并将其融入到训练中 。
Q7:模型如何能够为现实世界中存在的不确定性问题提供有用的建议?例如,这个模型能否跟上地球的状况 , 并为环境保护和物种灭绝提供有用的或最佳的政策 。
黄民烈:我认为人工智能给出建议是非常具有挑战性的,存在很大的风险 。例如,我们正在为心理学训练大语言模型 。心理学和情感支持是非常复杂的,你应该非常谨慎地给出任何建议,例如:他是否应该服用一些药物,或者他应该采取什么样的训练来改善他的症状 。更安全的解决方法是不要给出任何建议,让人类自己做决定吧 。这就是我的观点 。
Q8:为什么大语言模型会产生有害的内容 。是由于数据不当,或模型结构不当,或不合理的训练方法造成的吗?
黄民烈:我认为这主要是因为数据不正确 。因为对人类来说,社交媒体数据中有很多偏见 。我们在网络上有数字数据足迹 。然后我们抓取数据来训练我们的模型 。我们不可避免地将这种浏览和不公平反映到模式中 。对于这种一般的生成模型,即使我们可以非常仔细地清理数据,我们仍然无法避免生成不正确的数据,模型会自己组合和创造 。
在某些情况下,我们有一些对抗性的攻击方法可以使系统失效 。模型本身非常复杂,是一个不可解释的黑盒子 。模型失效的机制尚不清楚 。
Jan:在我看来,很多东西可能只是来自于训练前的数据 。
张弘扬:既然主要是糟糕的数据导致系统失效,那么是否意味着可以通过高质量数据直接解决该问题,而无需进行对齐?
Jan:你怎么得到大量的高质量数据?
张弘扬:微软在最近发表的论文《A Textbook is all you need 》中 , 使用高质量的数据来训练一个小模型,甚至可以击败大语言模型 。
Jan:如果你问模型如何制造生化武器或者帮助你制造生化武器 。模型看过所有的生物学教科书和所有的研究论文,阅读并消化他们,通过它们的推理能力从其它领域迁移知识 。你不能通过从训练前移除这些数据来解决这一问题 。
更重要的是,就像很多你不想让模型说的冒犯性的话 。有一些可能被认为非常冒犯的短语 , 如果仅仅逐字逐句地看,其中的词听起来是无害的 , 就好比「童言无忌」 。
如果从预训练中去掉所有这些数据,这个模型就不会意识到它说了一些冒犯性的话 。因为,我们想让模型明白它在说一些冒犯的话,以便训练它不要那样做 。这似乎是不可避免的 , 或者看起来我认为不太可能通过移除预训练数据来解决问题 。


推荐阅读