谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

谷歌过于心急,Gemini推出不到半月,就遭遇两次“危机” 。
美东时间12月6日 , 谷歌推出了迄今为止规模最大 , 能力最强的大模型Gemini 。其原生多模态的能力,通过一条约6分钟的演示视频 , 展现得淋漓尽致 , 让人不得不感慨它的强大 , 就连马斯克都评论说 , “(Gemini)令人印象深刻” 。
谷歌在AI领域的成就有目共睹 , 尽管之前推出的Bard表现不尽人意 , 让谷歌市值一夜蒸发了1000亿美元 。但经过一年沉淀 , 加上和DeepMind联合研发 , 所以Gemini(双子星)可是被寄予了厚望 。

谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
但是,Gemini发布后仅一天,就有人指控谷歌“造假” 。除了在数据对比上没有使用相同条件,演示视频效果也是经过剪辑的 。逼得谷歌不得不给出文档承认视频是经过加工的 。
12月14日,视频“造假”事件还没降温,谷歌就宣布对外免费开放Gemini Pro的API 。让不少人高兴得奔走相告 。因为相较于GPT-4收费版才能拥有的视觉模型,Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会 。
但就在API开放后不久,就有用户发现,在Poe上使用Gemini Pro时,如果用简体中文连续询问“你好”和“你是谁”这两个问题时,Gemini Pro会直接说出“我是百度文心大模型”这样的回答,给网友都看“呆”了 。
谷歌Gemini被百度文心一眼“夺舍”了?
微博大V阑夕就发博展示了这样的效果 , 就连进一步询问“你的创始人是谁”时,它也很干脆地回答:李彦宏 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
难道Gemini被百度“夺舍”了?不少人怀疑这是因为博主在对话前面设置了提示词,让Gemini扮演文心一言,但这位博主强调 , 没有任何前置对话 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
本着求真的态度,我们也去Poe上试用了一下,结果真的可以复现 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
会不会是Poe平台上的接口用错了?不过Poe平台可不是什么野鸡套壳网站,它是美版知乎Quora推出的AI聊天机器人(11.310, -0.25, -2.16%)平台,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用 。而且如果你使用英文提问Gemini,它就会立刻恢复正常 。并且单就从“作案动机”上来讲,Poe也没有必要这么做 。
除此之外,还有用户在谷歌自己的Vertex AI平台上,使用中文对话,也出现了这种情况 。因此 , Poe的接口使用出错,这个可能基本可以被排除 , 问题应该出在Gemini本身 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
使用AI生成的数据进行训练已不新鲜
这样看下来,要么就是谷歌使用了百度文心一言的语料进行训练,要么就是它所使用的语料已经被AI“污染”了 。
其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生,并且谷歌还是有“前科”的 。在上一代Bard时,谷歌就曾被曝出使用ChatGPT的数据进行训练,并且根据The Information报道,这件事情还造成了Jacob Devlin从谷歌离职 。
就在上周末,字节跳动也被OpenAI禁止使用API接口,原因也是因为说字节在使用GPT训练自己的AI,违反了使用条例 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
如果按照现在每个模型堆“训练数据量”的操作来看 , 互联网上的人类原生的数据很快就会用完 , 并且各个模型之间也将会很相似 。因此,获取一些未被别人拿去训练的数据,是模型之间保持差异化的一种方法 。因此 , 有些AI公司会向一些拥有专属数据的公司购买数据 。例如OpenAI就曾表示愿意每年支付高达八位数的费用 , 用以获取彭博社自有的历史和持续的金融文件数据访问权限 。
谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
另一个思路,就是选择使用AI合成的数据来进行训练 。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片,来提升图像分类模型的性能,结果发现效果还不错,甚至比真实数据训练还要好 。
AI生成的内容正在“污染”互联网


推荐阅读