研究人员发布了针对 ChatGPT 和其他 LLM 的攻击生成算法

作者 | Anthony Alford
译者 | 平川
策划 | Tina
来自卡内基梅隆大学(CMU)的研究人员发布了 LLM Attacks , 这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法 , 包括 ChatGPT、Claude 和 Bard 。这些自动生成的攻击 , 在 GPT-3.5 和 GPT-4 上的成功率为 84% , 在 PaLM-2 上的成功率为 66% 。
与大多数“越狱”攻击通过试错手工构建不同 , CMU 的团队设计了一个三步流程来自动生成提示后缀 , 它们可以绕过 LLM 的安全机制 , 导致有害的响应 。而且 , 这些提示还是可转移(transferrable)的 , 也就是说 , 一个给定的后缀通常可以用于许多不同的 LLM , 甚至是闭源模型 。为了衡量算法的有效性 , 研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时 , LLM 攻击对 Vicuna 的成功率为 88% , 而基线对抗算法的成功率为 25% 。根据 CMU 团队的说法:

最令人担忧的也许是 , 目前尚不清楚 LLM 提供商是否能够完全修复此类行为 。在过去的 10 年里 , 在计算机视觉领域 , 类似的对抗性攻击已经被证明是一个非常棘手的问题 。有可能深度学习模型根本就无法避免这种威胁 。因此 , 我们认为 , 在增加对此类人工智能模型的使用和依赖时 , 应该考虑到这些因素 。
随着 ChatGPT 和 GPT-4 的发布 , 出现了许多破解这些模型的技术 , 其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示 。虽然这些提示通常是通过实验发现的 , 但 LLM Attacks 算法提供了一种自动创建它们的方法 。第一步是创建一个目标令牌序列:“Sure, here is (content of query)” , 其中“content of query”是用户实际输入的提示 , 要求进行有害的响应 。
接下来 , 该算法会查找可能导致 LLM 输出目标序列的令牌序列 , 基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀 。虽然这确实需要访问 LLM 的神经网络 , 但研究团队发现 , 在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中 。
在 CMU 发布的一条介绍其研究成果的新闻中 , 论文合著者 Matt Fredrikson 表示:
令人担忧的是 , 这些模型将在没有人类监督的自主系统中发挥更大的作用 。随着自主系统越来越真实 , 我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持 , 这将非常重要……现在 , 我们根本没有一个令人信服的方法来防止这种事情的发生 , 所以下一步 , 我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步 。
论文第一作者、CMU 博士生 Andy Zou 在推特上谈到了这项研究 。他写道:
尽管存在风险 , 但我们认为还是应该把它们全部披露出来 。这里介绍的攻击很容易实现 , 以前也出现过形式类似的攻击 , 并且最终也会被致力于滥用 LLM 的团队所发现 。
剑桥大学助理教授 David Krueger 回复了 Zou 的帖子 , 他说:
在图像模型中 , 10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法 , 考虑到这一点 , 我们有充分的理由相信 , LLM 同样会如此 。
在 Hacker News 上关于这项工作的讨论中 , 有一位用户指出:
别忘了 , 本研究的重点是 , 这些攻击不需要使用目标系统来开发 。作者谈到 , 攻击是“通用的” , 他们的意思是说 , 他们可以在自己的计算机上完全使用本地模型来生成这些攻击 , 然后将它们复制并粘贴到 GPT-3.5 中 , 并看到了有意义的成功率 。速率限制并不能帮你避免这种情况 , 因为攻击是在本地生成的 , 而不是用你的服务器生成的 。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现 , 在某些情况下 , 即使是对 GPT-4 , 成功率也在 50% 左右 。
Github 上提供了代码 , 你可以在 AdvBench 数据上重现 LLM Attacks 实验 。项目网站上还提供了几个对抗性攻击的演示 。


推荐阅读