“弱智吧”成最佳中文AI语料库，究竟什么算优质数据？( 二 ) _优质数据

据业内人士分析，GPT-3于2020年推出，使用了3000亿的token；去年上线的GPT-4使用了12万亿token；如果遵循当前的增长轨迹，GPT-5可能会需要 60 万亿到 100 万亿的token 。
根据去年 Epoch AI人工智能预测组织的一项研究，AI公司可能在 2026 年前耗尽高质量文本训练数据，而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间。这意味着，“数据瓶颈”或成为制约AI发展的关键因素。
陶建华则认为，随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富，高质量数据的增长趋势的确会在一定程度上放缓，但在数字化快速发展的时代，每天都会生成大量的数据，尤其是会不断产生新的应用领域（包括专业领域），高质量数据依然会继续增长。
“当然在算力受限的情况下，数据量大，不一定代表模型就能处理的过来，因为算力的制约，导致大模型的参数规模无法迅速扩大，必然也会影响对更大规模数据的处理能力。”
陶建华介绍，在某些领域，数据还会存在稀疏不够的情况，有时采用“合成数据”也是一种弥补数据短缺的方法，即利用仿真技术或者AIGC技术生成数据，来扩充数据的规模，在很多情况下，也能取得很好的模型训练和应用效果。

“弱智吧”成最佳中文AI语料库，究竟什么算优质数据？( 二 )

推荐阅读

民航之翼|第四家民营航空公司完成更名！

「东易日盛南京分公司」这个餐厅厨房能提升家庭关系，爱了爱了！，215㎡都市风格大平层

情有独钟的梦学会这5种营养豆腐的做法，比肉好吃100倍

「微信」对标抖音！微信推出视频号功能，也能愉快的刷短视频

华为手机|国庆这三款最值得买，高配低价超良心！你买对了吗

官宣离巢！港圈知名姐妹花承认离开公司，有指因资源不均感失望

中兴|超1000项改进！中兴手机系统MyOS正式发布：S30系列首发搭载

感觉已练出腹肌但是有赘肉咋办

华为|美制裁下的华为供应链：索尼传感器业务失速呼吁国家支持

生物|东方生物“四联”检测试纸完成CE认证

iOS|苹果iOS 14正式版推送时间曝光，如果是这些型号，最好别升级！

骑士优格山海皆可平，「全心爱你」：所爱隔山海

厦门玩乐|BAO美啦｜建议把41岁的高圆圆写进词典，是锦绣的同义词

娱乐圈爆料：杨紫、赵露思、王源、鞠婧祎、任嘉伦、张嘉倪

和平精英|和平精英巅峰赛首批参赛选手名单公布，网友：不求人呢？

科学“无限的子环”可能成为下一个拍摄黑洞的先驱者

戴安娜|戴安娜逝世23周年！威廉难掩悲痛红了眼眶，弟弟哈里却不见踪迹

飞浩星座|不要大意，细节决定成败，生肖猪要注意：本命年刚过

|美国这次大怒，又晚一步！5000亿大单花落中国

科学|宇宙诞生于138亿年前的一次大爆炸，那么大爆炸之前又是什么？