同事|跟你一块卷的同事 确定是个人吗?( 二 )
文章图片
人工智能_山东大哥音频:00:00/00:42
从央美毕业、最近代表中国参加迪拜世博会的夏语冰 , 它们均是出自小冰框架之手:
文章图片
……
不难看出 , 这些小冰创造出来的众多虚拟人 , 他们都具备各自的“看家本领” 。
那么接下来的一个问题便是——
既能做到逼真 , 又富有多样性 , 还能批量工厂式生产 , 小冰是如何做到的?
像个人 , 并不容易
小冰现在做出来的虚拟人 , 无论是静态的照片 , 或者是动态的新闻主播 , 都可以说是真假难辨 。
但讲真 , 尤其是在打造N小黑和N小白的时候 , 小冰团队最初也遇到了许多挑战 。
因为在此之前 , 大家能够看到的所谓AI虚拟人主播还是比较假的 。
例如主播的表情不够自然 , 下半身几乎不动 , 以及播报出来的语言也是带有“机械味” 。
甚至《每日经济新闻》团队的成员都对此举打出了大大问号:
我们为什么要放上去这么假的虚拟人呢?
对此 , 小冰团队为了首次能够达到人类无法区分的程度 , 便在技术路线上做出了核心改变 。
先从整体来看 , 小冰框架依然是核心 。
而这一次的技术关键改变 , 在于对视觉上的优化 。
以往我们在电影中能够看到的逼真效果 , 要么采用的是传统3D建模方法 , 要么就是CG后期渲染 。
但这两种方法在时间周期和资金成本上的缺点也是非常明显 。
基于这种现状 , 小冰团队便提出了一种新的方法——深度神经网络渲染技术 (XNR) 。
简单来说 , 这项技术主要包含三个步骤 。
第一步是构建两个专家模型 。
第一个是语音专家模型 , 基本的思路便是利用很大量的数据来学习、理解人类的语音 。
例如人类在讲话讲到激动的时候 , 他的嘴型都会有比较明显的变化 , 而语音专家模型就是学会这项技能 。
第二个是专家模型 , 则是通过采集摄像机等设备拍出来的人物视频数据 , 学习人类在说话过程中 , 嘴部的变化与眼睛、脸部其它肌肉之间如何产生微妙的联动变化 。
如此一来 , 就能会让虚拟人在说话时 , 整个面部表情能够变得自然流畅 。
第二步便来到了渲染的环节 。
也就是将语音输入到深度神经网络渲染模型 , 而后会一帧一帧地渲染出自然的脸 , 并形成动态的过程 。
但在这个过程中 , 前两个专家模型也会起到一个监督的作用 , 目的还是让整体效果能够自然 。
第三步 , 则是一个自动化的过程 。
也就是当把文字输入进来的时候 , 就会通过TTS(TextToSpeech)的方式 , 将文本变成语音 。
而当机器接收到这些语音信号后 , 又会将其联动虚拟人的所有姿态、动作、表情等 , 最终生成一个完整的视频 。
也正是在这种技术路线上的改变 , 最终才得以让小冰的虚拟人“瞒天过海”地骗过了人眼 。
……
聊完了背后的技术 , 不少友友们肯定也要发问了:
做得这么像人 , 小冰要干什么?
我们还是拿N小黑/N小白的例子来看 。
他们的效果一出来 , 便让《每日经济新闻》内容团队的态度 , 发生了三百六十度的改变——
从最开始的质疑和抵触 , 直接转变成了积极去接受 。
他们后来直接主动拿着需求 , 找到小冰团队的技术人员说:
我们现在需要让AI来播报这些内容……
这是因为他们发现虚拟人播报新闻 , 原来不仅可以做得像人一样逼真 , 而且还能做到7 x 24小时不间断的那种 。
如此一来 , 便让播报新闻这个本身就极具时效性的事情 , 变得异常精准高效 , 还释放了大量的人力和物力 。
甚至《每日经济新闻》的同行都会私下问他们:“你们什么时候变成24小时制了?”
……
而不仅仅是新闻主播这一件事 , 若是上升到更高的角度来观察 , 我们也不难发现AI虚拟人已然成为一种大趋势 。
推荐阅读
- 动物|地球上还有隐藏的神秘巨兽吗?答案跟你想的不一样
- 工资|工资单被同事看到后遭开除 男子已与公司和解:结果“较圆满”
- 工资|男子称工资单被同事看到后遭开除 泄露工资被开除合理吗?律师回应
- 工资|男子称工资单被同事看到后遭开除:官方回应
- NVIDIA|NVIDIA晒《黑客帝国4》定制版3080 Ti:中国限量仅此一块
- 车祸事故|男子驾车免费捎带同事回家 结果出车祸赔偿90万
- 锂电池|零突破!欧洲自产出第一块锂电池
- 五菱|三辆五菱宏光MINI EV路口撞到一块!网友:真卖爆 出镜率满大街
- 游戏|经常和女朋友一块玩游戏是什么体验?“分手厨房”让心率飙升!
- 周鸿祎|周鸿祎称元宇宙房产不值得投资:但可以先占上一块地