AI要被卡脖子了?训练大模型的数据或在2026年耗尽( 二 )


因此,模型构建者正在努力提高他们已经拥有的数据的质量 。许多人工智能实验室雇佣大量的数据注释者来执行标记图像和评级答案等任务 。其中一些工作很复杂,甚至需要招聘拥有生命科学专业的硕士或博士求职者 。但其中大部分工作都很普通,而且正在外包给肯尼亚等国的廉价劳动力 。
人工智能公司也通过用户与他们工具的互动来收集数据 。其中,许多工具都有某种形式的反馈机制,由用户指出哪些输出是有用的 。Firefly的文本转图像生成器允许用户从四个选项中做出选择 。谷歌的聊天机器人巴德(Bard)同样提供了三个答案 。
当ChatGPT回复查询时,用户可以给它竖起大拇指点赞 。这些信息可以作为输入反馈到底层模型中,形成创业公司Contextual AI联合创始人杜威·基拉(Douwe Kiela)所说的“数据飞轮” 。他补充说,衡量聊天机器人回答质量的一个更强的信号是,用户是否复制文本并将其粘贴到其他地方 。分析这些信息有助于谷歌迅速改进其翻译工具 。
开拓新领域,企业客户内部数据成香饽饽
然而,有一个数据来源在很大程度上仍未被开发,即存在于科技公司企业客户内部的信息 。许多企业往往在不知不觉中拥有大量有用的数据,从呼叫中心记录到客户支出记录等 。这些信息特别有价值,因为它可以帮助微调特定商业目的模型,比如帮助呼叫中心的工作人员回答客户的问题,或者帮助业务分析师找到提振销售的方法 。
然而,利用这种丰富的资源并不容易 。咨询公司贝恩的分析师罗伊·辛格(Roy Singh)指出,从历史上看,大多数公司很少关注那些将被证明对训练人工智能工具最有用的庞大但非结构化的数据集 。这些数据通常分布在多个系统中,隐藏在公司服务器中,而不是在云端 。
解锁这些信息将有助于企业定制人工智能工具,以更好地满足他们的特定需求 。亚马逊和微软这两家科技巨头现在都提供工具,以帮助其他企业更好地管理非结构化数据集,谷歌也是如此 。数据库公司Snowflake的克里斯蒂安·克莱纳曼(Christian Kleinerman)说,随着客户希望“打破数据孤岛”,该领域正在蓬勃发展 。
初创公司也正在蜂拥至这个新领域 。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元 。仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金 。本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资 。显然,对数据的争夺才刚刚开始 。(文/金鹿)




推荐阅读