AI要被卡脖子了？训练大模型的数据或在2026年耗尽 _大模型

就在不久前，分析师们还公开猜测，人工智能（AI）是否会导致面向创意人士的软件开发商Adobe衰落。像Dall-E 2和MidTrik这样的新工具，可以根据提示文本生成相应的图片，它们似乎让Adobe的图像编辑功能变得多余。就在今年4月，金融新闻网站Seeking Alpha还发表了题为《人工智能会是Adobe杀手吗?》的文章。

文章插图
但在现实中，事实距离分析师们的假设尚远。Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly 。该公司高管达纳·拉奥(Dana Rao)表示，自3月份发布以来，Firefly已被用于创建超过10亿张图像。通过避免像竞争对手那样在互联网上挖掘图像，Adobe避开了目前困扰着整个行业的、日益加深的版权纠纷。自Firefly推出以来，Adobe股价已经上涨了36% 。
一场数据争夺战正在拉开序幕
Adobe干翻所谓“末日杀手”的胜利表明，在快速发展的人工智能工具市场上争夺主导地位具有更广泛的意义。为最新一波所谓的“生成式人工智能”提供动力的超大模型依赖于海量的数据。此前，模型构建者多数时候从互联网抓取数据（通常是未经许可的）。现在，他们正在寻找新的数据来源来维持这种疯狂的训练模式。与此同时，拥有大量新式数据的公司正在权衡如何最好地从中获利。一场数据争夺战正在拉开序幕。
【AI要被卡脖子了？训练大模型的数据或在2026年耗尽】人工智能模型的两个基本要素就是数据集和处理能力，系统在数据集上接受训练，模型通过处理能力检测这些数据集内外部之间的关系。在某种程度上，这两大基本要素可以相互替代：一个模型可以通过吸收更多数据或增加更多处理能力加以改进。然而，在专业人工智能芯片短缺的情况下，后者正变得越来越困难，这导致模型构建者加倍专注于寻找数据。
研究机构Epoch AI认为，对数据的需求将会急剧增加，以至于可用于训练的高质量文本可能会在2026年耗尽。据悉，谷歌和Meta这两家科技巨头的最新人工智能模型已经接受了超过1万亿个单词的训练。相比之下，在线百科全书Wikipedia上的英语单词总数约为40亿个。
重要的不仅仅是数据集的大小。数据越好，利用其进行训练的模型表现也会越好。数据初创公司Scale AI的拉塞尔·卡普兰(Russell Kaplan)指出，基于文本的模型的理想训练对象是篇幅够长、文笔良好、事实准确的作品。输入这些信息的模型更有可能产生类似的高质量输出。
同样，当被要求一步一步地解释它们的工作时，人工智能聊天机器人会给出更好的答案，这也增加了对教科书等资源的需求。专用的信息集也变得更有价值，因为它们允许对模型进行“微调”，以适应更小众的应用。微软在2018年以75亿美元收购了软件代码存储库Github，并利用其开发了一种编写代码的人工智能工具。
数据版权官司激增，AI公司忙着签授权协议
随着对数据需求的增长，获取数据缺变得越来越棘手，内容创作者现在要求对被人工智能模型吸收的材料给与补偿。在美国，已经有许多针对模型构建者发起的侵犯版权案件。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家，正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta 。此外，一群艺术家也同样起诉了Stability AI和Midjourney，这两家公司致力于开发文本转图像的工具。
所有这一切导致的结果是，随着人工智能公司竞相获取数据源，出现了一连串的交易。今年7月，OpenAI与美联社签署了一项协议，以获取该机构的新闻档案。最近，该公司还扩大了与图片库提供商Shutterstock的协议，Meta也与后者达成了协议。
8月初有报道称，谷歌正在与唱片公司环球音乐(Universal Music)进行谈判，希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具。资产管理公司富达(Fidelity)表示，许多科技公司曾与该公司接洽，要求获取其财务数据。有传言称，人工智能实验室正在接洽英国公共广播公司（BBC），以获取其图像和电影档案。另一个受关注的目标是JSTOR，这是一个学术期刊的数字图书馆。
这些信息持有者正在利用他们更大的议价能力。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本。这两个网站都特别有价值，因为用户会给喜欢的答案“点赞”，帮助模型知道哪些是最相关的内容。社交媒体网站X(前身为推特)已经采取措施，限制机器人抓取该网站信息的能力，现在任何想要访问其数据的人都要付费。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务。

AI要被卡脖子了？训练大模型的数据或在2026年耗尽

推荐阅读

解放军报|激活教育课堂，这个旅为教育课引入“话题辨析”

普洱茶砖正确喝法,上万块涉假普洱茶砖被查获暂扣

三月是什么星座三月十四是什么星座

迷彩虎|真相如何？看中国专家支招解答，美军三个航母战斗群将云集西太

手动档车正确起步方法是什么？

郑恺回应火锅店涉抄袭■郑恺回应火锅店涉抄袭：如有侵权，立即整改，绝不姑息

数读｜创历史最佳，沃尔沃2020年在华销量突破16.6万辆

北京哪里有靠谱的单反相机出租或租赁

AG超玩会|王者荣耀：KPL解说＋教练＋寒夜全体遭打脸！月光算是遇到对手了

周冬雨|美艳的脸，小孩的身材？干瘪过瘦成为女星最大“灾难”

日本|美英日3国一天同时发难，中国新的考验来临，警惕西方下套

『农民』湖北农民家祖坟冒青烟，专家闻讯赶来，专家勘测后封锁了整座山

『红旗h9』当年20万都排队等车，现13万却没人要！网友：关键新款实在太强！

[爱因儿科技]京东在产业智能化趋势下的AI技术突围，落子“新基建”

辽沈晚报盘锦时刻|安全生产重于泰山，【新闻】消除隐患防范未然

文棚■一年四季均可品尝！中山这家餐厅打造的特色菊花宴，想试试吗？

爬是什么梗

天气早知道|性感又大气，原来圆脸女孩也可以很性感，赵露思穿抹胸裙太抢镜

中国新闻网|菲律宾苏禄省发生连环爆炸9死16伤棉兰老岛西南地区进入“红色警报”

蓝迪教你穿衣搭配▲31岁李纯气质开挂，，穿吊带露背连衣裙尽显蝴蝶骨，气质惊艳，原创