孤惯|通用人工智能啥时候能实现?这是我的最新预测( 四 )


反过来说 , 这意味着数据集大小应随模型大小呈超线性增长:10 倍大的图像分类模型应该使用 101/0.573=55.6101/0.573=55.6 倍的数据!那真是个可怕的消息啊!
但是 ,Kuplan 和 Candlish 在 2020 年发表的论文却提出了相反的关系:数据集的大小应该随着模型的大小而增长 。 他们只研究语言建模 , 但是在论文的第 6.3 节指出:
为控制过拟合 , 第 4 节的结果暗示我们应该将数据集的大小扩展为 D∝N0.74D∝N0.74 , 其中 DD 是数据集大小 , NN 是模型大小 。
与 D∝N1/0.72D∝N1/0.72 的 Hestness 结果相比 , 这显得很奇怪 。 数据集应该比模型增长得快还是慢呢?
这两个数字之间存在差异的原因是 , Kaplan 结果是在假设固定的计算预算的情况下得出的 。 他们发现的一个关键结果是 , 在短时间内训练一个非常大的模型比训练一个较小的模型来收敛效率更高 。 同时 , 据我所知 , Hestness 结果总是使用训练过的模型来收敛 。
孤惯|通用人工智能啥时候能实现?这是我的最新预测来源: Kaplan 和 Candlish , 2020 年
这有点离题了 , 但是输入数字之后 , 我们得到模型大小每增加 10 倍 , 数据集大小就需要增加 4 到 50 倍 。 让我们假设 4 倍的方面要大方 。 对于标签需求而言 , 4 倍的系数肯定要比 10 倍的系数好很多 , 但仍然是很多 。
进入无监督学习 , 这些方法正在变得越来越好 , “标签”的意义正朝着更容易获得的方向发展 。 GPT-3 是在一堆网络抓取数据上进行训练的 , 虽然也需要一些输入处理 , 但在进入模型训练之前 , 它并不需要人工验证文本的每一句话 。 在足够大的规模下 , 尽管看起来你的标签是嘈杂的 , 数据是混乱的 , 但这都是可以的 。
【孤惯|通用人工智能啥时候能实现?这是我的最新预测】这里有很大的潜力 。 如果你有 NN 个无监督的例子 , 那么 NN 个带标签的例子会更好 , 但要记住 , 标签是需要花费很多精力的 。 标记数据集的大小受你所能承担的监督的限制 , 并且你可以用同样的工作量获得更多的无标签数据 。
很多有关大数据的炒作都是由一些情节驱动的 , 这些情节显示数据的创造速度比摩尔定律还快 。 大肆炒作最终还是失败了 , 因为无知的高管不明白这一点:拥有数据与拥有有用的机器学习并不是一回事 。 可用数据的真实数量要少得多 。 这引起了研究界的哄笑 , 但如果无监督学习变得更好 , 甚至垃圾数据也变得稍微有用的话 , 那么我们就会成为笑柄 。
无监督学习已经足够好了吗?当然没有 , 100% 绝对没有 。 这比我预期的要近 。 我希望看到更多的论文使用与目标任务无关的数据源 , 以及更多的“ImageNet 时刻” , 通过“站在别人 GPU 时间的肩膀上”来构建应用 。
GPT-3 的结果在质量上比我预期的要好在人们开始摆弄 GPT-3 之前 , 我已经更新了我的时间轴估计 , 但 GPT-3 是促使我写下本文解释原因的动机 。
我们在 GPT-3 上看到的是 , 语言是一个非常灵活的输入空间 。 人们早就知道这一点了 。 我认识一位从事自然语言处理的教授 , 他说 , 语言理解是一项人工智能完成的任务 , 因为一台假设的机器完全理解并且回答所有的问题 , 就像人类一样 。 也有人认为 , 压缩是智能的代表 。 正如 Hutter Prize 网站上所论述的那样 , 要压缩数据 , 就必须识别数据中的模式 , 如果你把模式识别看作是智能的一个关键组成部分 , 那么更好的压缩器应该更智能 。
需要说明的是 , 这些并不是自然语言处理研究界的普遍观点!关于语言理解究竟意味着什么这一问题 , 人们展开了激烈的争论 。 我之所以提到它们 , 是因为这些观点都是严肃的人所持有的 , 而 GPT-3 的结果支持这些观点 。


推荐阅读