AI要被卡脖子了?训练大模型的数据或在2026年耗尽

就在不久前,分析师们还公开猜测,人工智能(AI)是否会导致面向创意人士的软件开发商Adobe衰落 。像Dall-E 2和MidTrik这样的新工具,可以根据提示文本生成相应的图片,它们似乎让Adobe的图像编辑功能变得多余 。就在今年4月,金融新闻网站Seeking Alpha还发表了题为《人工智能会是Adobe杀手吗?》的文章 。

AI要被卡脖子了?训练大模型的数据或在2026年耗尽

文章插图
但在现实中,事实距离分析师们的假设尚远 。Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly 。该公司高管达纳·拉奥(Dana Rao)表示,自3月份发布以来,Firefly已被用于创建超过10亿张图像 。通过避免像竞争对手那样在互联网上挖掘图像,Adobe避开了目前困扰着整个行业的、日益加深的版权纠纷 。自Firefly推出以来,Adobe股价已经上涨了36% 。
一场数据争夺战正在拉开序幕
Adobe干翻所谓“末日杀手”的胜利表明,在快速发展的人工智能工具市场上争夺主导地位具有更广泛的意义 。为最新一波所谓的“生成式人工智能”提供动力的超大模型依赖于海量的数据 。此前,模型构建者多数时候从互联网抓取数据(通常是未经许可的) 。现在,他们正在寻找新的数据来源来维持这种疯狂的训练模式 。与此同时,拥有大量新式数据的公司正在权衡如何最好地从中获利 。一场数据争夺战正在拉开序幕 。
【AI要被卡脖子了?训练大模型的数据或在2026年耗尽】人工智能模型的两个基本要素就是数据集和处理能力,系统在数据集上接受训练,模型通过处理能力检测这些数据集内外部之间的关系 。在某种程度上,这两大基本要素可以相互替代:一个模型可以通过吸收更多数据或增加更多处理能力加以改进 。然而,在专业人工智能芯片短缺的情况下,后者正变得越来越困难,这导致模型构建者加倍专注于寻找数据 。
研究机构Epoch AI认为,对数据的需求将会急剧增加,以至于可用于训练的高质量文本可能会在2026年耗尽 。据悉,谷歌和Meta这两家科技巨头的最新人工智能模型已经接受了超过1万亿个单词的训练 。相比之下,在线百科全书Wikipedia上的英语单词总数约为40亿个 。
重要的不仅仅是数据集的大小 。数据越好,利用其进行训练的模型表现也会越好 。数据初创公司Scale AI的拉塞尔·卡普兰(Russell Kaplan)指出,基于文本的模型的理想训练对象是篇幅够长、文笔良好、事实准确的作品 。输入这些信息的模型更有可能产生类似的高质量输出 。
同样,当被要求一步一步地解释它们的工作时,人工智能聊天机器人会给出更好的答案,这也增加了对教科书等资源的需求 。专用的信息集也变得更有价值,因为它们允许对模型进行“微调”,以适应更小众的应用 。微软在2018年以75亿美元收购了软件代码存储库Github,并利用其开发了一种编写代码的人工智能工具 。
数据版权官司激增,AI公司忙着签授权协议
随着对数据需求的增长,获取数据缺变得越来越棘手,内容创作者现在要求对被人工智能模型吸收的材料给与补偿 。在美国,已经有许多针对模型构建者发起的侵犯版权案件 。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家,正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta 。此外,一群艺术家也同样起诉了Stability AI和Midjourney,这两家公司致力于开发文本转图像的工具 。
所有这一切导致的结果是,随着人工智能公司竞相获取数据源,出现了一连串的交易 。今年7月,OpenAI与美联社签署了一项协议,以获取该机构的新闻档案 。最近,该公司还扩大了与图片库提供商Shutterstock的协议,Meta也与后者达成了协议 。
8月初有报道称,谷歌正在与唱片公司环球音乐(Universal Music)进行谈判,希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具 。资产管理公司富达(Fidelity)表示,许多科技公司曾与该公司接洽,要求获取其财务数据 。有传言称,人工智能实验室正在接洽英国公共广播公司(BBC),以获取其图像和电影档案 。另一个受关注的目标是JSTOR,这是一个学术期刊的数字图书馆 。
这些信息持有者正在利用他们更大的议价能力 。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本 。这两个网站都特别有价值,因为用户会给喜欢的答案“点赞”,帮助模型知道哪些是最相关的内容 。社交媒体网站X(前身为推特)已经采取措施,限制机器人抓取该网站信息的能力,现在任何想要访问其数据的人都要付费 。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务 。


推荐阅读