“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?( 二 )


据业内人士分析,GPT-3于2020年推出 , 使用了3000亿的token;去年上线的GPT-4使用了12万亿token;如果遵循当前的增长轨迹,GPT-5可能会需要 60 万亿到 100 万亿的token 。
根据去年 Epoch AI人工智能预测组织的一项研究,AI公司可能在 2026 年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于 2030 年至 2060 年之间 。这意味着,“数据瓶颈”或成为制约AI发展的关键因素 。
陶建华则认为,随着数据针对不同领域、主题、类别等方面的覆盖逐渐丰富,高质量数据的增长趋势的确会在一定程度上放缓 , 但在数字化快速发展的时代,每天都会生成大量的数据,尤其是会不断产生新的应用领域(包括专业领域),高质量数据依然会继续增长 。
“当然在算力受限的情况下,数据量大,不一定代表模型就能处理的过来,因为算力的制约 , 导致大模型的参数规模无法迅速扩大,必然也会影响对更大规模数据的处理能力 。”
陶建华介绍 , 在某些领域,数据还会存在稀疏不够的情况,有时采用“合成数据”也是一种弥补数据短缺的方法,即利用仿真技术或者AIGC技术生成数据,来扩充数据的规模,在很多情况下,也能取得很好的模型训练和应用效果 。




推荐阅读