财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则,只为了让自家的产品更加先进一些 。
《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境 。
美国科技巨头各走“捷径”
2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型 。
为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台YouTube的视频音频,生成大量的对话文本 。
报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频 。随后这些资料被输入到GPT-4系统中,并成为聊天机器人(10.850, 0.00, 0.00%)ChatGPT的基础 。
根据谷歌的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频 。
有趣的是,在OpenAI偷偷扒Youtube视频时,谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险 。正因如此,虽然有谷歌员工知道OpenAI在这么干,也没有出手阻止 。因为一旦谷歌对OpenAI提出抗议,也有可能“引火烧身”到自己身上 。
对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据 。谷歌发言人Matt Bryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频” 。不过Bryant也表示 , 公司只会在有明确法律、技术依据时才会采取行动 。
谷歌自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着谷歌能用这些资料开发商用AI,也存在不小的疑问 。
与此同时 , Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了” 。
据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例” 。
更显性的变化是,谷歌去年修改了服务条款 。根据内部资料显示,推动隐私政策变化的动机之一,包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论,以及更多在线资料开发AI产品 。最终谷歌赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款 , 将“使用公开信息训练AI模型”首次纳入其中 。
Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI,这里指的是自愿参与的实验性功能体验计划 。
即便如此还是不够
正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了 。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南 。
问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够 。
2020年初 , 约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好 。自那以后 , “规模就是一切”成为了人工智能行业的信条 。
2020年11月发布的GPT-3包含约3000亿个Token的训练数据 。2022年,谷歌DeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一) , 一个名为Chinchilla的模型用了1.4万亿个Token的数据 。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token , 谷歌PaLM 2的训练数据量则达到3.6万亿个Token 。
研究机构 Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度 , 这些公司最快会在2026年就耗尽互联网上的高质量数据 。
面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI 。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖 。
推荐阅读
- OpenAI和谷歌再起纷争:AI的尽头是内容
- 海外推广干货分享:外贸网站在谷歌SEO排名上不去首页的16个原因
- AI“复活”成产业链:成本可降至数百元
- 多方热议人工智能产业新机遇
- AI重塑社交:腾讯与字节跳动的新赛场
- 第一批用 Kimi 做内容的网红已经杀疯了
- iPhone 来电拦截:从系统到应用,全面保护你的隐私!
- 如何实现微信聊天记录从旧手机到新手机的无缝对接
- 手机还装不下AI的梦想
- “老头乐”终结者,网传五菱零蛋售价1.2万,会成为你的练手车?