识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了( 二 )


识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
为了根据这个抽象的模型进行先验概率的估计 , 需要假定该模型的输出为某个句子为正类(Positive)的置信度 , 即判定为人说出的样本的概率 。假设每个 token 的贡献大小为句子 token 长度的反比 , 是非正(Positive)即无标记(Unlabeled)的 , 且为无标记的概率远远大于为正的概率 。因为随着大模型的词汇量逐渐逼近人类 , 绝大部分词汇会同时出现在 AI 和人类语料中 。根据这个简化后的模型和设定好的正 token 概率 , 通过求出不同输入情况下模型输出置信度的总期望 , 来得到最终的先验估计 。
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
通过理论推导和实验 , 估计得到先验概率随着文本长度的上升而上升 , 最终逐渐稳定 。这种现象也符合预期 , 因为随着文本变长 , 检测器可以捕捉的信息更多 , 文本的 「来源不确定性」也逐渐减弱:
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
之后 , 对于每个正样本 , 根据其样本长度得到的独特先验对 PU loss 进行计算 。最后 , 由于较短文本仅有部分 “不确定性”(即较短文本也会含有一些人或者 AI 的文本特征) , 可以对二分类 loss 和 MPU loss 进行加权相加 , 作为最终的优化目标:
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
此外需要注意的是 , MPU loss 适配的是长度较为多样的训练语料 。倘若既有的训练数据单质化明显 , 大部分语料为大段冗长的文本 , 则无法全面发挥 MPU 方法的功效 。为了使得训练语料的长度更多样化 , 本研究还引入了一个在句子层面进行多尺度化的模块 。该模块随机遮盖训练语料中的部分句子 , 并对余下句子在保留原有顺序的前提下进行重组 。经过训练语料的多尺度化操作 , 训练文本得到了长度上的极大丰富 , 从而充分利用了 PU 学习进行 AI 文本检测器训练 。
实验结果
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
如上表所示 , 作者先在较短的 AI 生成语料数据集 Tweep-Fake 上检验 MPU loss 的效果 。该数据集中的语料均为推特上较为短小的语段 。作者又在传统的语言模型微调基础上将传统二分类 loss 替换为含有 MPU loss 的优化目标 。改进之后的语言模型检测器效果较为突出 , 超过了其它基线算法 。
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
作者又对 chatGPT 生成文本进行了检测 , 经过传统微调得到的语言模型检测器在短句上表现较差;经过 MPU 方式在同等条件下训练得到的检测器在短句上表现良好 , 且同时能够在完整语料上取得可观的效果提升 , F1-score 提升了 1% , 超越了 OpenAI 和 DetectGPT 等 SOTA 算法 。
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
如上表所示 , 作者在消融实验中观察了每个部分带来的效果增益 。MPU loss 加强了长、短语料的分类效果 。
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了

文章插图
作者还对比了传统 PU 和 Multiscale PU(MPU) 。由上表可见 MPU 效果更胜一筹 , 能更好地适配 AI 多尺度文本检测的任务 。
总结
作者通过提出基于多尺度 PU 学习的方案 , 解决了文本检测器对于短句识别的难题 , 随着未来 AIGC 生成模型的泛滥 , 对于这类内容的检测将会越来越重要 。这项研究在 AI 文本检测的问题上迈出了坚实的一步 , 希望未来会有更多类似的研究 , 把 AIGC 内容进行更好的管控 , 防止 AI 生成内容的滥用 。




推荐阅读