音频|腾讯商世东:天籁音频技术让云会议“听得见、听得清、听得真”

9月11日 , 2020腾讯全球数字生态大会视频通信云专场云端召开 。 会上 , 腾讯多媒体实验室高级总监商世东发表了以《腾讯天籁音频 , 面向云会议的新一代实时音频技术》为主题的演讲 。 他指出 , 天籁音频技术是实时端到端音频通信的完整解决方案 , 致力于让用户在云视频会议时可以“听得见、听得清、听得真” 。
音频|腾讯商世东:天籁音频技术让云会议“听得见、听得清、听得真”
图片

腾讯多媒体实验室的高级总监商世东
商世东认为与传统会议场景相比 , 实时音视频的云视频会议面临着非常大的挑战 。 主要包括以下几个方面:音频外设的多样化(客户端 , 高清音质)、网络条件差异(Ethernet , 4G , W i f i)、声学环境复杂(远距离/混响/本底噪声)、入会形式复杂(同地多设备)、噪声类型多变(平稳 , 非平稳噪声)、客户端的音频设备差异性(蓝牙 , 有线 , 内置)、与传统会议设备的兼容、用户需求的多样化(音频内容分享)及现网质量评估的复杂性 。 而天籁音频技术是实时端到端音频通信的完整解决方案 。
在演讲最后 , 商世东表示 , 天籁音频技术规划的关键策略包括音频通信核心体验、声音场景分类和处理、音频痛点难点问题及差异化体验 。 最终目标是提升语音可懂度、自然度、舒适度 。
以下为商世东演讲实录:
大家好 , 欢迎来到腾讯全球数字生态大会视频通讯云专场 。 我是腾讯多媒体实验室高级总监商世东 。 今天要跟大家分享的是《腾讯天籁音频——面向云视频会议的新一代实时音频技术》 。
大家都知道经过几十年技术的发展 , 其实对于端到端的实时音频通讯技术 , 已经形成了一套非常成熟、非常稳定的框架 。 这套框架结构已经在我们传统的 , 比如说经过PSDN的电网网络、运营商网络里面得到了广泛应用 。
大家日常当中使用的固定电话、手机通信其实采用的就是这样的架构 。 我们讲基于IP网络的应用上面也有这样类似的一套框架 , 当然它基于运营商的实时语音通讯技术最大的不同在于网络 , 但是从整个端到端的语音通讯框架来说 , 他们有很多地方都是类似的 , 比如说在上行的时候他们都有信号采集、语音前处理 , 然后经过编码 , 在经过网络传输的时候 , 需要一系列的网络的相关的这样的一些处理 , 比方说FEC 、比方说丢包补偿 PLC的技术 , 以及自动速率控制来控制不同带宽下的音频语音包速率 。 语音包经过网络来从一端发送到对端 , 然后在播放端或者说我们叫下行端的时候 , 我们会有一个解码 , 然后再加上后处理 , 最后经过渲染 , 经过实际的喇叭把这个声音放出来 。 这一整套框架结构其实经过几十年的发展 , 已经在很多地方得到广泛使用 。
那我们自然而然就会讲 ,这样的一套实时通信的框架系统 , 在传统会议场景上面我们看到 , 已经有很多类似的产品出现 , 比方我们在会议室当中用的比较多的 , 我们都看到了这种八爪鱼 , 就是思科或者宝利通这样的设备 。 当我们讲基于云通信的、特别是基于云的视频通信的技术 , 跟我们讲的传统会议场景里面的端到端的语音通讯技术有什么不同呢?其实还有蛮大不一样的 ,大家可以看这个PPT 。
在传统的会议场景, 基本上我们讲是一个受控的 , 可预见的场景 。 在这样的场景里面你用的外设是确定的 , 你用的是哪个供应商、硬件设备制造商的产品 , 这都是事先知道的 。 你的会议室的场景基本上事先是经过精心设计的 , 比方说不会有太强的噪声 , 不会有太大的混响 。 你的网络基本上很多时候都是得到专线保证的 , 尤其是在公司的内网里面 。 我们讲网络的QOS 、丢包、延时和抖动其实都不会太过恶劣 。 但是当我们来到基于云的视频会议通讯场景的时候 , 情况就会有很大的不同 , 我们会发现其实这样端到端的实时音频技术面临着非常大的挑战 。 会面临哪些挑战呢?


推荐阅读