深度学习不是AI的终极答案( 三 )


迈克尔·伍尔德里奇:ChatGPT现在已有很多应用层面的创新,而且很快可能就会迎来创意的“大爆炸” 。我认为一两年内,ChatGPT及类似应用就会大规模落地,在商业化软件中完成文字校对、语句润色、归纳总结等简单的重复性文案工作 。
此外,在多模态人工智能中,我们可能会看到更多新的应用场景 。例如与图像识别、图像生成相结合的大型语言模型,可能会在AR领域发挥作用;基于大模型的视频内容理解,可以利用AI快速给视频、影视剧生成摘要等 。不过,多模态场景的商业化可能还需要一段时间,但我们最终将看到由AI生成的各种各样的内容,甚至是完全由AI创建的虚拟世界 。
虎嗅:要从头开始打造一家如OpenAI一样的公司,您认为需要具备哪些条件?
迈克尔·伍尔德里奇:我想要从头开始创立一家OpenAI这样的公司非常困难 。首先你需要庞大的计算资源,采购数万个昂贵的顶级GPU,组建专门用于AI的超级计算机,仅电费可能就耗资巨大 。你也可以选择云服务,但目前云计算的价格并不便宜 。因此,每次训练AI可能都要花费数百万美元,且需要运行几个月甚至更长的时间 。
此外,还需要海量的数据,其规模可能是整个互联网的数据,如何获得这些数据也是一个难题 。而数据和算力,都还只是基础,更重要的是要聚拢一群高精尖的AI研发人才 。
虎嗅:在AI研发上哪家公司更有实力?您对AI研发方面,各国之间的技术差异怎么看?
迈克尔·伍尔德里奇:在这条赛道上的玩家可能包括互联网公司、研究机构,也许还有政府,只是他们没有公开 。目前,公开宣布具备大模型实力的玩家并不多,甚至一只手就能数得过来 。大型科技公司目前都在研发自己的大型语言模型,他们的技术也相对领先 。
因此我不想评价谁更强,我认为各家模型之间没有明显可比性,他们的区别主要在于投入市场的节奏,以及用户数量 。OpenAI的技术并不一定是最先进的,但他们在市场化方面领先了一年,而这一年的优势给他积攒了数亿用户,这也使他在用户数据反馈方面遥遥领先 。
目前,美国在人工智能领域一直占主导地位,无论是谷歌还是微软,甚至创立于英国的DeepMind,如今也属于美国的Alphabet(谷歌母公司) 。
不过,在过去的40年中,中国在AI领域的发展也相当快 。1980年的AAAI conference(American Association for AI conference,美国人工智能协会会议),只有一篇来自中国香港的论文 。但到今天,来自中国的论文数量已经与美国相当 。
当然,英国也拥有优秀的人工智能团队,但我们没有中国那样的规模,我们是一个相对较小的国家,但我们绝对拥有世界领先的研究团队 。
这是一个有趣的时代,很多国家都拥有极强的人工智能团队 。
深度学习进入瓶颈
当人们探讨ChatGPT是否能够代替搜索引擎时,很多人认为ChatGPT的数据只覆盖到2021年以前,无法获取实时数据,因此没法胜任搜索任务 。但也有人认为,其实我们日常搜索的内容,在很大程度上都是2021年以前的已有知识,即便此后生成的数据量再大,实际使用需求也并不高 。
事实上,ChatGPT使用的数据量已经非常庞大了,它的前辈GPT-2模型是在40GB的文本数据上进行预训练的,GPT-3模型则是在45TB的文本数据上进行预训练的 。这些预训练数据集,包括了各种类型的文本,如新闻文章、小说、社交媒体帖子等,大模型能够学习到不同领域和风格的语言知识 。很多实践证明,即便只有2021年以前的数据,ChatGPT仍是一个上知天文下知地理的“博士” 。
而这也引发了人们对大模型训练的数据忧虑,当我们要训练一个比ChatGPT更大的模型时,我们这个世界的数据还够用吗?未来的互联网上,会不会充斥着AI生成的数据,从而在AI训练过程中,形成一条数据的“衔尾蛇”?

深度学习不是AI的终极答案

文章插图
衔尾蛇被认为“寓意着无限”
虎嗅:您曾在书中提到神经网络是机器学习中最耀眼的技术 。如今,神经网络引导我们在算法、数据尤其是算力上不断前行,随着技术进步,您是否看到了神经网络发展的瓶颈?
迈克尔·伍尔德里奇:我认为神经网络目前面临三个主要的挑战 。第一是数据,像ChatGPT这样的工具是通过大量语料数据构建的,其中很多来自互联网 。如果你想构建比ChatGPT大10倍的系统,可能需要10倍的数据量 。但我们的世界上有那么多数据吗?这些数据从哪里来?如何创建这些数据?


推荐阅读