「用户」腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布( 二 )


那么如何动态来在多种因素中平衡 , 保证多人语音通信的综合体验在三个维度上有最优的均衡 , 就变成一个很有挑战性的课题 。
同时 , 不同场景的网络环境也不一样 。 你的网络、我的网络 , 可能还有第三个、第四个人的网络 , 有的人使用有线网络、有的则是WiFi , 有的是4G , 带宽差异巨大 , 网络QoS也参差不齐 , 这时候如何有效的探测网络实际带宽 , 进而高效的进行流控管理 , 在多人场景下的复杂度远远高于双人 。
所以 , 综上所述 , 一旦开始考虑多人参会的因素 , 你会发现 , 在两人通话的情形下讨论的音质体验、QoS、QoE等等问题 , 现在要重新思考答案 。 这在国际上当前也是很热的领域 , 大家也都在探索答案 。
对于整个视频会议体验来说 , 或者对于用户体验来说 , 这不是一个单一的因素或者指标就可以决定的 。 之前我们有针对网络规划的常见QoS三个指标 , 丢包 , 抖动和延迟 , 这些东西都是必要条件 , 但是不是充分条件 。 决定一个用户体验的是很多方面的因素 , 比如从音频角度来说 , 从我们做音频的角度来说 , 用的最多的就是上面说到的三个维度:语音可懂度、自然度、舒适度 。
首先是听得懂你说的话 , 这是可懂度 。 如果音量很低 , 卡顿很严重 , 或者回声 , 或者很嘈杂 , 或者啸叫发生 , 那我基本就无法听了 , 那视频会议通话中反应比较多的卡顿来说 , 我们通过深度学习技术来解决网络丢包的问题 。
IP网络上面传输的时候常常会发生丢包的现象 , 以前处理丢包的技术比较简单粗暴 , 比如直接拿后面一帧填补一下或者前一帧内容直接复制 。 但是现在我们通过机器学习的方法 , 可以很准确的预测丢掉的那个音节的部分内容 , 在用户体验上则并没有感知 。
但是光听得懂肯定不行 , 你肯定不可能只满足于听得懂 。
比如听机器人说话 , 那听得懂是没有问题的 , 但自然度方面就不会太好 , 这里面就涉及很多音质的东西 , 不仅是延迟、卡顿 , 抖动 , 这些是网络的指标 。 自然度对于用户来说更多是一个感知问题 , 我们用音色是否明亮、是否均衡、是否丰满 , 等等多项指标来衡量 。 当我们在语音处理中不可避免需要非线性处理的时候 , 我们就可以通过上述的指标来保证语音的感知自然度 。
在语音舒适度维度方面 , 我们的终极目标是视频会议语音通话的体验要尽可能的接近真实场景下的人和人间距1米时的通话体验 , 要达到这样的目标 , 我们还有很长的一段路要走 。 目前可以想象到哪些困难我们需要克服 , 除了网络QoS三要素外 , 如何尽可能真实的仿真出所处的声学场景和对话形式 , 对于目标的达成至关重要 , 我们的技术演进路线图也是朝着这个方向在努力 。
3. 赶车
咖啡与信念缺一不可
「用户」腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布
图片

(Photo by Sergey)
今年的需求(疫情)爆发了以后 , 我们整个团队一直加班加点 , 针对以前很多没有覆盖到的场景、没有碰到过的用户需求 , 陆陆续续开发了更多的技术和功能 。 比如 , 我们发现很多老师给学生上课时需要声音共享 , 而且这是一个非常刚性的需求 。 以前我们在办公室很少有声音共享 , 屏幕共享就可以了 , 所以我们在Windows(大部分老师都是用电脑进行教学直播互动)上提供了很多音频共享的功能 。
比如我们可以在学生把麦克风禁麦后还讲话的时候提醒学生 , 我们通过信号处理的技术 , 可以把学生讲话的声音有效的从环境背景声分离处理 , 从而实现关麦讲话提醒这个功能 。
另外 , 用户激增后 , 我们也看到了不同用户的终端设备差异性导致的产品行为的不一致 。 举个例子 , 用户开关麦克风的过程当中需要整个设备驱动进行重启 。 设备驱动重启的过程中 , 大部分设备都没有问题 , 但是某些设备确会导致关麦的时候扬声器无声 , 一秒两秒的无声用传统的质量评估手段是看不出来的 , 但对用户体验有很大的影响 。 所有这样的问题被发现后 , 快速迭代的能力就非常关键 。


推荐阅读