Dynalang——一种使用语言学习世界模型的AI新技术( 二 )


Dynalang是一个基于模型的强化学习系统,这意味着它可以根据世界模型预测动作和状态 。同时,使用过去动作的回放缓冲区作为监督学习流来训练世界模型 。根据环境的不同,动作空间可以由电机命令、文本生成和其他类型的动作组成 。
Dynalang的一个有趣的特性是,它能够以令牌流形式接收文本指令和描述,同时还可以一起传递图像帧信息 。这与在一组任务的开头提供完整的指令文本的其他技术形成了鲜明对比 。研究人员解释道,“对于人类来说,阅读、听力和口语会随着时间的推移而延长,在此期间,我们会接收新的视觉输入,并可以执行运动动作 。类似地,我们在每个时间步长为我们的代理提供一个视频帧和一个语言令牌,代理产生一个运动动作,在适用的环境中,每个时间步长产生一个语言标记 。”
与语言模型的许多应用程序一样,Dynalang可以在原始数据(文本和图像)上进行预训练,在那里它可以学习每个模型的潜在表示 。然后,它可以在较小的传感器和动作数据集上进行微调 。然而,正如研究人员所指出的,有一点需要注意:“与典型的语言建模目标不同,该模型没有明确地训练为从前缀预测下一个令牌,除非通过在下一时间步长时的预测表示 。”
Dynalang的效果如何?Dynalang支持在不同类型的环境中工作——使用语言提示和指令来更好地学习世界模型(来源:GitHub) 。
Dynalang的研究论文目前尚未正式印刷出版,这意味着它还没有经过严格的同行评审 。然而,该论文的作者包括人工智能研究领域备受尊敬的人物,例如伯克利机器人学习实验室主任兼伯克利人工智能研究实验室联合主任Pieter Abeel 。这为论文中的成果发现提供了一定程度的可信度 。
研究人员让Dynalang在各种环境中进行测试,每种环境都有独特的设置和挑战 。在可能的情况下,他们将Dynalang的性能与在相同环境中运行的基线强化学习模型进行了比较 。
HomeGrid就是这样一个环境,它是一个多任务网格世界,代理在其中接收语言形式的任务规范以及语言提示,这些提示包括对对象的描述,环境中的动力信息以及相关动作的纠正 。
研究人员指出,“值得注意的是,代理在HomeGrid中从未接受过关于提示含义的直接监督,而且提示通常与他们所指的对象或观察结果相去甚远 。”这意味着,代理必须通过将提示与世界模型观察到的状态相关联来学习提示的含义 。实验表明,Dynalang善于利用这些提示,而RL模型则必须通过试错来学习动作分布 。
在另一个环境VLN-CE(Vision-and-Language Navigation in Continuous Environments:连续环境中的视觉和语言导航)中,需要代理在3D环境中导航以到达指定的目的地 。每一组任务都包括一个环境和自然语言说明,说明如何到达目的地 。
实验表明,Dynalang在实现目标方面明显比纯RL方法更有效,因为它学会了将文本指令与环境观察和行动联系起来 。
然而,作者警告说,“[Dynalang]还不能与最先进的VLN方法(其中许多方法使用专家演示或专业架构)竞争 。”这意味着,虽然Dynalang不如SOTA技术有效,但它也需要更少的手动注释,并且可以从接近原始的数据中学习 。
本论文还探讨了另外两个有趣的环境:Messenger游戏环境和LangRoom包含的问答挑战 。如果您要想详细分析Dynalang在这些环境中的表现,我建议阅读全文 。
本论文的一个关键发现是,在纯文本数据集上对模型进行预训练可以显著提高模型在最终任务中的性能 。这表明,模型从文本中学习的能力是其整体有效性的关键因素 。
然而,研究人员承认,Dynalang还有相当大的改进空间 。他们认为,更好的语言建模技术和架构能够支持长期的操作,可以提高模型的性能 。我个人很感兴趣的是,如果它与更先进的转换器模型相结合的话它将如何改进 。
此外,这些技术在现实世界中的表现如何还有待观察,而现实世界往往比受控环境更不可预测和复杂 。但研究人员对Dynalang的潜力持乐观态度,尤其是在利用网上大量未标记数据方面 。研究人员写道,“在没有动作或奖励的情况下对视频和文本进行预训练的能力表明,Dynalang可以扩展到大型网络数据集,为实现与世界上的人类交互的自我改进的多模式代理铺平了道路 。”
译者介绍朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚 。
原文标题:New AI technique uses language to learn world models,作者:Ben Dickson


推荐阅读