大模型的幻觉有治了？OpenAI推出“挑刺模型”，让GPT-4自己给自己改作业_OpenAI

文章插图
图片来源：AI target=_blank class=infotextkey>OpenAI
出品 | 搜狐科技
作者 | 王一鸣
编辑｜杨锦
批评使人进步，不仅仅是针对人，对于大语言模型也是一样。
近期，OpenAI 的研究人员推出了 CriticGPT，这是为GPT-4打造的“挑刺模型” ，它能识别ChatGPT产生的代码中的错误。它通过人类反馈强化学习（RLHF）来增强AI系统，帮助人类训练师让大语言模型（LLM）输出的结果更加准确，以达到表现出人类训练师想要的输出效果。
Open AI使用了RLHF ，这是一种机器学习（ML）技术，它利用人类训练师的反馈来优化 ML模型，可以高效地进行自我学习。RLHF可以让训练软件做出最高效准确的判断。
RLHF把AI训练师的反馈赋予了奖励的意义，这让ML模型能执行更符合训练师目标和需求的任务。RLHF广泛应用于生成式AI应用程序，包括大语言模型。CriticGPT的关键功能已被整合进了生成式AI ，也顺理成章地成为了RLHF的一部分。
来自GPT-4，提升GPT-4
在“LLM Critics Help Catch LLM Bugs”的论文中表述到，现在的模型能力已经强到经验丰富的专家都难以去评估模型输出的质量和准确性。在不久的将来人类对大语言模型的评估可能会逐渐失效，限制了RLHF发挥矫正的作用。
言外之意就是：人类的智慧对于人工智能语言大模型来说已经到头了，需要另请高明。
研究人员还发现：
1.可扩展监督方法有助于训练员更全面地找到现实中RLHF数据问题。
2.CriticGPT比ChatGPT和CriticGPT的训练员能发现更多错误，展现出更强的优势。
3.由CriticGPT作为辅助的训练员团队比没有使用CriticGPT的训练员撰写的批注更全面，而且还减少了模型的幻觉率。
4.研究人员提出的强制采样集束搜索（FSBS）是一种推理时间采样策略和评分策略，这让大语言模型的批注在真实和虚假问题之间取得了平衡。
CriticGPT的核心思路就是训练大量模型故意插入bug，然后给CriticGPT提供示例反馈，让CriticGPT认为就好像他们发现了这些bug ，为模型做提示工程。这个过程可以让模型学习到如何识别和批注各种类型的代码bug 。
训练师使用CriticGPT当作AI工具，审查ChatGPT的编程代码。CriticGPT基于GPT-4系列的LLMS分析代码并指出潜在可能被忽视的错误。研究人员在本来就有错误的代码样本数据集的基础上训练了CriticGPT，教它识别和标记各种编码错误。
研究人员发现，在63%的错误案例中，训练师更偏向于CriticGPT对错误的批注，而不是人类的批注。
根据统计结果表明，CriticGPT展现出了优越的成绩，使用CriticGPT的团队比只有人类训练师做出的批注更全面。但是只有CriticGPT也不太行，它产生幻觉问题的几率还是挺高的。所以需要人类训练师和CriticGPT一起配合来降低幻觉发生的概率，其效果会更好。

文章插图
CriticGPT帮助训练师写出更全面的批注（图中数值越高越好）

文章插图
训练师与CriticGPT结合有效降低了幻觉问题（图中数值越低越好）
在实验过程中， CriticGPT展示了它能够捕捉ChatGPT输出中插入的错误和自然发生的错误。在ChatGPT所产生的63%自然错误案例中，训练师更喜欢人类与CriticGPT一起打配合的批注，因为这样无用“吹毛求疵”的批注的情况比较少，并且误报或幻觉问题也会更少一些。

文章插图
人类训练员的批注中“吹毛求疵”和幻觉问题比大语言模型要少很多，但是人机团队配合的表现比CriticGPT和ChatGPT都要好。
所以说CriticGPT也并不是完美无缺的，它仍然需要“人工介入” 。
研究人员还创造了一种新技术叫强制采样集束搜索（FSBS），它可以帮助CriticGPT编写更详细的代码批注。
研究人员还可以通过FSBS调整CriticGPT搜寻问题的力度，调节它发现不存在的问题的频率，这种功能可以根据不同AI训练任务的需求来调整平衡性。