识别ChatGPT造假,效果超越OpenAI：北大、华为的AI生成检测器来了( 二 ) _ChatGPT

文章插图
为了根据这个抽象的模型进行先验概率的估计，需要假定该模型的输出为某个句子为正类（Positive）的置信度，即判定为人说出的样本的概率。假设每个 token 的贡献大小为句子 token 长度的反比，是非正（Positive）即无标记（Unlabeled）的，且为无标记的概率远远大于为正的概率。因为随着大模型的词汇量逐渐逼近人类，绝大部分词汇会同时出现在 AI 和人类语料中。根据这个简化后的模型和设定好的正 token 概率，通过求出不同输入情况下模型输出置信度的总期望，来得到最终的先验估计。

文章插图
通过理论推导和实验，估计得到先验概率随着文本长度的上升而上升，最终逐渐稳定。这种现象也符合预期，因为随着文本变长，检测器可以捕捉的信息更多，文本的「来源不确定性」也逐渐减弱：

文章插图
之后，对于每个正样本，根据其样本长度得到的独特先验对 PU loss 进行计算。最后，由于较短文本仅有部分 “不确定性”（即较短文本也会含有一些人或者 AI 的文本特征），可以对二分类 loss 和 MPU loss 进行加权相加，作为最终的优化目标：

文章插图
此外需要注意的是， MPU loss 适配的是长度较为多样的训练语料。倘若既有的训练数据单质化明显，大部分语料为大段冗长的文本，则无法全面发挥 MPU 方法的功效。为了使得训练语料的长度更多样化，本研究还引入了一个在句子层面进行多尺度化的模块。该模块随机遮盖训练语料中的部分句子，并对余下句子在保留原有顺序的前提下进行重组。经过训练语料的多尺度化操作，训练文本得到了长度上的极大丰富，从而充分利用了 PU 学习进行 AI 文本检测器训练。
实验结果

文章插图
如上表所示，作者先在较短的 AI 生成语料数据集 Tweep-Fake 上检验 MPU loss 的效果。该数据集中的语料均为推特上较为短小的语段。作者又在传统的语言模型微调基础上将传统二分类 loss 替换为含有 MPU loss 的优化目标。改进之后的语言模型检测器效果较为突出，超过了其它基线算法。

文章插图
作者又对 chatGPT 生成文本进行了检测，经过传统微调得到的语言模型检测器在短句上表现较差；经过 MPU 方式在同等条件下训练得到的检测器在短句上表现良好，且同时能够在完整语料上取得可观的效果提升， F1-score 提升了 1% ，超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

文章插图
如上表所示，作者在消融实验中观察了每个部分带来的效果增益。MPU loss 加强了长、短语料的分类效果。

文章插图
作者还对比了传统 PU 和 Multiscale PU（MPU）。由上表可见 MPU 效果更胜一筹，能更好地适配 AI 多尺度文本检测的任务。
总结
作者通过提出基于多尺度 PU 学习的方案，解决了文本检测器对于短句识别的难题，随着未来 AIGC 生成模型的泛滥，对于这类内容的检测将会越来越重要。这项研究在 AI 文本检测的问题上迈出了坚实的一步，希望未来会有更多类似的研究，把 AIGC 内容进行更好的管控，防止 AI 生成内容的滥用。