据业内人士分析,GPT-3于2020年推出 , 使用了3000亿的token;去年上线的GPT-4使用了12万亿token;如果遵循当前的增长轨迹,GPT-5可能会需要 60 万亿到 100 万亿的token 。
根据去年 Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026 年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间 。这意味着,“数据瓶颈”或成为制约AI发展的关键因素 。
陶建华则认为,随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富,高质量数据的增长趋势的确会在一定程度上放缓 , 但在数字化快速发展的时代,每天都会生成大量的数据,尤其是会不断产生新的应用领域(包括专业领域),高质量数据依然会继续增长 。
“当然在算力受限的情况下,数据量大,不一定代表模型就能处理的过来,因为算力的制约 , 导致大模型的参数规模无法迅速扩大,必然也会影响对更大规模数据的处理能力 。”
陶建华介绍 , 在某些领域,数据还会存在稀疏不够的情况,有时采用“合成数据”也是一种弥补数据短缺的方法,即利用仿真技术或者AIGC技术生成数据,来扩充数据的规模,在很多情况下,也能取得很好的模型训练和应用效果 。
推荐阅读
- 百度Create AI剧透:“三大开发神器”升级,模型增至77个,三步即可生成应用
- AI未来或超越“最聪明的人”?专家谈发展如何兼顾公平
- 网络渠道“眼见”不一定为实 防范“AI换脸”诈骗行为
- 45岁,中国喜剧明星的“生死线”
- 3位貌美却身材魁梧的“大体格子”女星,就吃亏在“肩膀”上!
- 惊天告密:莫妮卡贝鲁奇泪目,少女沦为“玩物”,绝望中呐喊
- 她是娱乐圈“最干净”女演员,出道26年0绯闻,和老公因戏生情
- 6位没有“上镜脸”的女星,真人惊为天人,荧屏中却平平无奇
- 这一次,演唱会上对薛之谦撒谎的女网红,“底裤”都快被扒光了
- 《承欢记》:看到刘婉玉的“这3种愚蠢”,才懂麦承欢会一生不幸