高质量数据的紧缺正成为AI发展的重要障碍 。
【AI世界的新难题:互联网的信息不够用了!】4月1日,据媒体报道 , 随着OpenAI、google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统 。
科技巨头的AI系统,比如能与人类聊天的ChatGPT , 是通过学习网上的信息变得越来越聪明的 。但现在,高质量、有用的信息日益紧缺,同时 , 一些网站开始限制AI公司访问他们的数据 。据业界一些高管和研究人员表示 , AI行业对高质量文本数据的需求可能在两年内超过供应 , 这将可能减缓AI技术的发展速度 。
文章插图
面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源 。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5 。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径 。
据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势 。随着数据需求不断增长,找到新的学习材料、与数据所有者的合作,让AI系统变得更加聪明,就成了这个行业的重要备战区 。
OpenAI的GPT-5面临10万亿到20万亿tokens的数据短缺
AI语言模型的构建依赖于从互联网上收集的大量文本数据 , 这些数据包括科学研究、新闻文章、维基百科条目等 。这些材料被分解成“tokens”,tokens可以是完整的单词或单词的一部分 。AI模型通过分析和理解这些tokens之间的关系和模式,学会了如何生成流畅、自然的语言 , 从而能够回答问题、撰写文章甚至创作诗歌 。
模型的能力在很大程度上取决于它训练的数据量 。通常情况下,数据越多 , 模型的性能就越好,因为它有更多的例子来学习不同的语言用法和复杂性 。
OpenAI通过为其GPT系列模型提供海量训练数据,不断提升性能,借此成为世界顶尖AI公司 。这展示了大数据训练对于AI发展的重要性 。
但是,随着GPT-4模型的不断扩大 , OpenAI对数据的需求也在急剧增长 。Epoch研究所的AI研究员Pablo Villalobos估计,GPT-4训练涉及的数据量高达12万亿tokens,而未来模型,如GPT-5,可能需要60万亿到100万亿tokens 。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺 。至于如何弥补这一巨大的数据缺口,目前尚无明确方案 。
据媒体报道,为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源 。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势 。扎克伯格表示,Meta能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确 。
文章插图
而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例 。此外 , OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注 。
Epoch研究所预测AI数据短缺危机将推迟至2028年
两年前,Villalobos和他的同事写道,到2024年年中 , 对高质量数据的需求超过供给的可能性为50% , 到2026年发生这种情况的可能性为90% 。自那以后,他们变得更加乐观 , 在AI研究员Pablo Villalobos及其团队的审慎评估下,新的预期显示,这种短缺风险将延迟至2028年 。
这项乐观的更新基于对当前数据质量和可用性的深刻洞察 。Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料 。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对AI模型的增长和(4.81, 0.03, 0.63%)发展做出实质性贡献 。
同时,各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练 。他们担心如果数据被自由用于AI训练,可能导致内容创造者和平台本身失去应得的经济回报 。
此外,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯 。
推荐阅读
- 影视业AI应用如何超乎想象?
- 数据可视化在网络安全中的关键作用
- 微软新 AI 专利获批:帮老板追踪、评估你的工作表现
- 手机摄影的秘密:打开HDR开关,让风景照更加清晰唯美
- 微信查岗的两种模式,能查一个是一个!不想被查可以看看
- AI手机是什么?AI手机和传统手机的主要区别
- 苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
- cdr应该咋的才可以删除不要的部分
- 08年奥运会中国金牌总数第几 08年奥运会中国的金牌总数
- 2022世界杯在哪里举行 2022世界杯赛程表