OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策( 五 )


在某种程度上,有时你训练的模型并没有产生「不对齐」 。但也许你用不符合人类偏好的函数训练它 。此时,如果最终模型与你的偏好不相符 , 这并不奇怪 。
Q9:超级对齐的目标是尽量减少日益强大的 AI 系统所带来的风险并尽量最大化它的好处 。但仅仅通过超级对齐不足以实现这一目标 。如何看待超级对齐背景下的人工智能治理问题?
Jan:这两者是不同的问题 。它们在某些方面是重叠的 。如果你能解决对齐问题,就有能帮你解决其它问题的对齐后的模型 。对于开源模型来说 , 对齐治理问题可能也特别突出 。
我们可以做出一个完全对齐的开源模型,人们也可能去掉对齐让模型做一些不安全的事情 。因此 , 如何管理模型的使用和误用,包括开源模型,似乎是一个非常开放的问题 。




推荐阅读