识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

机器之心专栏
机器之心编辑部

AI 造假的成功率很高 , 前几天「10 分钟骗 430万」还上了热搜 。在最热门的大语言模型上 , 研究人员最近探索了一种识别方法 。
随着生成式大模型的不断进步 , 它们生成的语料正逐步逼近人类 。虽然大模型正在解放无数文书的双手 , 它以假乱真的强劲能力也为一些不法分子所利用 , 造成了一系列社会问题:
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图

识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图

识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
来自北大、华为的研究者们提出了一种识别各式 AI 生成语料的可靠文本检测器 。根据长短文本的不同特性 , 提出了一种基于 PU 学习的多尺度 AI 生成文本检测器训练方法 。通过对检测器训练过程的改进 , 在同等条件下能取得在长、短 ChatGPT 语料上检测能力的可观提升 , 解决了目前检测器对于短文本识别精度低的痛点 。
【识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了】
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
论文地址:
https://arxiv.org/abs/2305.18149
代码地址 (MindSpore):
https://Github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
代码地址 (PyTorch):
https://github.com/YuchuanTian/AIGC_text_detector
引言
随着大语言模型的生成效果越发逼真 , 各行各业迫切需要一款可靠的 AI 生成文本检测器 。然而 , 不同行业对检测语料的要求不同 , 例如在学术界 , 普遍需要对大段完整的学术文本进行检测;在社交平台上 , 需要对相对简短而较为支离破碎的假消息进行检测 。然而 , 既有检测器往往无法兼顾各式需求 。例如 , 主流的一些 AI 文本检测器对较短的语料预测能力普遍较差 。
对于不同长度语料的不同检测效果 , 作者观察到较短的 AI 生成文本可能存在着一部分归属上的「不确定性」;或者更直白地说 , 由于一些 AI 生成短句同时也常常被人类使用 , 因而很难界定 AI 生成的短文本是否来自于人或 AI 。这里列举了几个人和 AI 分别对同一问题做出回答的例子:
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
由这些例子可见 , 很难对 AI 生成的简短回答进行识别:这类语料与人的区别过小 , 很难严格判断其真实属性 。因此 , 将短文本简单标注为人类 / AI 并按照传统的二分类问题进行文本检测是不合适的 。
针对这个问题 , 本研究将人类 / AI 的二分类检测部分转化为了一个部分 PU(Positive-Unlabeled)学习问题 , 即在较短的句子中 , 人的语言为正类(Positive) , 机器语言为无标记类(Unlabeled) , 以此对训练的损失函数进行了改进 。此改进可观地提升了检测器在各式语料上的分类效果 。
算法细节
在传统的 PU 学习设定下 , 一个二分类模型只能根据正训练样本和无标记训练样本进行学习 。一个常用的 PU 学习方法是通过制定 PU loss 来估计负样本对应的二分类损失:
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
其中 , 表示正样本与正标签计算的二分类损失;表示将无标记样本全部假定为负标签计算的二分类损失;表示将正样本假定为负标签计算的二分类损失;表示的是先验正样本概率 , 即正样本在全部 PU 样本中的预估占比 。在传统的 PU 学习中 , 通常将先验设置为一个固定的超参数 。然而在文本检测的场景中 , 检测器需要处理各式长度不同的文本;而对于不同长度的文本而言 , 其正样本在所有和该样本相同长度的 PU 样本中的预估占比也是不同的 。因此 , 本研究对 PU Loss 进行了改进 , 提出了长度敏感的多尺度 PU(MPU)loss 损失函数 。
具体地 , 本研究提出了一个抽象的循环模型对较短文本检测进行建模 。传统的 NLP 模型在处理序列时 , 通常是一个马尔可夫链的结构 , 如 RNN、LSTM 等 。此类循环模型的这个过程通常可以理解为一个逐渐迭代的过程 , 即每个 token 输出的预测 , 都是由上一个 token 及之前序列的预测结果和该 token 的预测结果经过变换、融合得到的 。即以下过程:


推荐阅读