行业互联网|搜狗联合清华天工研究院推出 ChoreoNet 模型：让数字人随着音乐翩翩起舞( 二 ) |

从2018年首创分身技术之后，搜狗的研发脚步从未停止，持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。

本文插图

如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向，其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后，搜狗将研究重点从面部为主的驱动转到面部+动作的驱动，重点攻关如何让肢体动作更具自然表现力。如在今年5月推出的3DAI合成主播身上，不仅有经得起高清镜头考验的面部表现，同时实现了以文本语义为驱动的自如行走。
如今， ChoreoNet更进一步，实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动，更是一改只能由文本、语义驱动AI分身面部+动作的现状，为行业带来了更多的创新可能，搜狗的分身技术理想与实力也跃然纸上。
不断打造可视化、能自然交互的AI数字人，搜狗到底想做什么？
人机交互的未来，与搜狗的技术远景
回归到企业战略层面，搜狗的AI理念是让AI赋能于人。通过人机协作，把人从重复性工作中解放出来，更好地解放社会生产力。比如AI主播，就可以让主持人不再困于朗读既定内容，可以投身于更具创造性的工作。当然，这一切都要从更自然的人机交互开始，完成一次次交流与触碰。
而此次ChoreoNet让数字人跟随音乐起舞，这个创意的突破不仅仅是技术上够炫酷，应用空间也非常巨大。
不出意外，搜狗很大可能会将该技术同3D数字人相结合，因为相较2D数字人， 3D数字人的肢体灵活性、可塑性驱动更强，从而有更广泛的应用空间。音频驱动技术的加入，不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景，更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到，基于视觉的人机交互会越来越成为主流，比如当前流行的智能客服、虚拟偶像等等，往往需要大量文本、语义的输入来进行推理与交互，虚拟偶像的动作也需要捕捉后由人工逐帧进行制作，而改为音频驱动可以更为直接地实现语音交流，节省制作/计算的步骤与成本。

本文插图

此外，人类知识体系与机器学习的结合，让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习，从而提供更精准、可靠的服务，大大提升AI客服的接受度。
当然，音频驱动也可以生成更具人性化的个人秘书，帮助人减轻工作负担、提高效率的同时，通过音频识别与判断来实时反应，表现力更加丰富，让智能家居、服务机器人等更好地融入生活环境，在老人关怀、私人助理、儿童陪伴等等场景之中，扮演更积极的角色。
业内有个共识，一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目，才会被ACMMultimedia通过和录取。从这个角度看，搜狗与清华天工院所做的工作，远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候，搜狗已经向前迈出了让人眼前一亮的步伐。
让数字人更像人，就能更早地与人类达成亲密无间的配合与协作，对于人类和AI来说，同样重要。也正由于此，世界顶级盛会才会投注认可与鼓励。下一次，搜狗会为数字人集齐怎样的能力呢？我们拭目以待。

本文插图

行业互联网|搜狗联合清华天工研究院推出 ChoreoNet 模型：让数字人随着音乐翩翩起舞( 二 )

推荐阅读

2020年首趟“京和号”旅游专列北京开行

一史千金|爱情躲不过，是你的姻缘谁也抢不走的四星座，10月初桃花运挡不住

不小心说了不该说的话终日惴惴不安咋办?

「睿小二」《宝可梦》图鉴800：实际上是究极异兽的神——奈克洛兹玛（下）

妈咪有方|最后只找回来3千，网友：太能作了，2岁熊孩子从窗户撒了1万元

京尊达还有吗京尊达

襄阳|他深得郭靖和周伯通真传，打败杨过，射杀神雕，成武林盟主

「丽丽阅读」【短篇】致命吸引游戏

云开风送暖日出|黄晓明和尹正对《鬓边红》相当好，俞正菊仍然很受欢迎

釜山|《釜山行2:半岛》官宣定档　丧尸围城上演生死斗争

睡觉|每晚仅睡4个小时依旧生龙活虎天生“短暂睡眠者”有何奥秘？

孤惯|LCD又要崛起？华星光电画大饼：今年量产屏下指纹，明年多点识别

一叶片舟|与你想的可能大不同，告诉你一个真实的蒙古国

华为消息称华为无限推迟折叠手机更新：麒麟5nm芯片、相应屏幕都被断供

沫言|纳米镀膜好不好？

雪村|俞晴：雪村的妻子，因为身材太过于丰满被称为中国的梦露

Cc天涯海角Jj Iphone12待机耗电挺大的

「传染病」从全球新冠肺炎病例的数字变化看疫情走向（10天、4天、3天）

『一点搞机资讯』国产手机为什么没人做小屏旗舰了

「掌游宝」文艺复兴！炉石传说月末75％胜率狂野提速奇数骑冲分攻略