Meta AI连发三篇Textless NLP论文:语音生成的终极答案?( 二 )


 
经过实验评估可以看到,提出的模型与以往最佳情感语音转换模型相比,取得了极大的质量提升 。事实上,结果与原始音频的质量非常接近(图表中以浅绿色为原始音频) 。

Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
有情感的AI对话Meta AI建立了一个可以让两个人工智能agent之间自发的、实时的闲聊模型,每个agent的行为因素,如偶尔的重叠或停顿都很真实,这对建立像虚拟助手这样的应用场景来说很重要,可以让AI更好地理解细微的社交线索和信号,比如能够捕捉到与人聊天时的细微的积极或消极反馈 。
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
论文链接:https://arxiv.org/pdf/2203.16502.pdf
演示链接:https://speechbot.github.io/dgslm/
 
文中提出的dGSLM模型是第一个能够生成自然口语对话音频样本的Textless模型 。模型的开发上利用了最近在无监督口语单元发现方面的工作,加上一个带有交叉注意力的双塔Transformer架构,在2000小时的双通道原始对话音频(Fisher数据集)上训练,没有任何文字或标签数据 。dGSLM能够在两个通道中同时产生语音、笑声和其他副语言信号,让谈话的转折非常自然 。
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
颠覆传统NLP在不久的将来,基于Textless NLP技术构建的下游应用将会呈井喷之势,由于模型训练既不需要资源密集型的文本标签,也不需要自动语音识别系统(ASR),模型可以直接通过音频信号进行问答 。Meta AI的研究人员认为语音中的亲和力可以帮助更好地解析一个句子,这反过来又促进了对意图的理解,能够提高问题回答的性能 。
 
其中一个应用场景是语音到语音的翻译,也可以叫做AI翻译配音(dubbing) 。传统的流畅通常是基于文本来完成的,需要先将音频转换为文本,执行翻译,再将文本转换为音频信号 。
 
比如大火的「鱿鱼游戏」多语言版本就用到了这一技术 。
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
但流程太复杂会使得整个系统变得难以训练,也会丢掉一些口头语言的表现力,不仅是因为语调和非语言表达在文本中丢失,还因为语言模型在文本中的训练缺少了这些信号处理模块 。
 
而自监督的语音表示方法能够从原始音频中学习离散的单元,可以消除对文本的依赖,研究人员认为Textless NLP可以胜过传统的复合系统(ASR+NLP),也有可能整合非语言发声和声调信息,在音素之上传达丰富的语义和语用信息,而这些信息通常在文本中无法获得 。
 
随着世界变得更加数字化,元宇宙中也包含越来越多由人工智能驱动的应用程序,这些NPC可以创造新的体验 。而这种全新体验不止局限于文本的交流,未来将会走向更流畅的互动方式,如语音和手势等 。
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
所有这些使用表征和自我监督学习的进步都有可能帮助研究人员摆脱传统的基于文本的模型,建立更自然、更有吸引力的未来人工智能系统 。
 
除了缺乏表现力之外,传统的NLP应用,依靠大量的文本资源,但在世界上只有少数几种语言有如此大规模的标注数据 。
 
从长远来看,相信Textless NLP系统的进步也将有助于使人工智能对更多人具有包容性,特别是对于那些讲没有标准化书写系统的语言和方言的人,如方言阿拉伯语或瑞士德语 。
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?

文章插图
 
参考资料:
https://ai.facebook.com/blog/generating-chit-chat-including-laughs-yawns-ums-and-other-nonverbal-cues-from-raw-audio

【Meta AI连发三篇Textless NLP论文:语音生成的终极答案?】


推荐阅读