本文由上海交通大学教授宋利在LiveVideoStackCon2020线上峰会的演讲内容整理而成,从分析视频传输系统延迟入手,分析视频编码延迟的产生机制,总结优化编码延迟的技术手段和业界典型的低延迟编码方案,讨论不同场景的延迟要求,并对后续技术演进发展方向进行展望 。文 / 宋利
整理 / LiveVideoStack
文章插图
本次分享的主题是互动场景下的低延迟编码技术,内容分为四个方面:一是互动媒体服务;二是低延迟视频编码技术;三是低延迟编码方案;四是应用场景和发展趋势 。
互动媒体服务1.1 视频媒体形态
文章插图
如图所示,我们将现有典型的视频相关服务按照高通量、强交互两个维度进行划分,其中横坐标表示高通量,纵坐标表示强交互,一些典型的视频映射到图中分布于不同的位置 。
左下角部分可以称为基本视频,它涵盖了当前的一些主流应用,包括TV、视频监控、视频会议以及多人视频游戏等,其特点是以二维视频为主,同时交互形式包括单项、双项和多人交互 。
如果从这个区域往外扩展,外面一层是可以称之为增强视频,沿高通量维度由高清向超高清、自由视、点云、光场过渡,交互维度包括仿真训练、电竞,两者都演进的方向是VR、AR,最后演进到全触感,也就是视频媒体形态正在由基本视频向增强视频演进,这两个维度某种程度和现在5G中两个维度很契合,高通量对应大带宽,强交互对应低延迟 。
文章插图
这张图显示了流媒体视频的典型服务场景,流媒体服务经过多年的发展,现在已经形成一个比较完整的技术和生态链,从源端、云端、边端到终端,包括背后的技术体系也相对比较趋同 。现在经常使用的是以RTMP代表加H.264进行源端的推流,到CDN边缘上通过265,包括下行的HLS协议转换,形成流媒体服务的基本流,然后用户侧通过播放器从源端进行拉流,获得流媒体直播的体验 。这套架构基本上比较成熟和完善,各家公司的竞争点主要体现在用不同的编码器进行替换,不同上下行协议的改造,以及CDN资源的部署,以此获得竞争优势 。从整个媒体服务形态变化的角度看,大部分的努力是针对前面提到的通量这个维度 。
图中展示了流媒体实时交互演进的一个典型示例,在直播场景下,通过手机小屏发出交互指令,可以在大屏播放时产生交互的反馈,获得一些个性化的体验;比如在下行过程中发起用户指令,叠加符合正在播放内容的、个性化渲染特效 。在这种场景下,整个流媒体架构就会发生变化 。在此之前是在云端、边端进行处理,与终端并没有太多交互,技术要素变化不大;但是增加互动维度后,在边缘侧就可以引入很多新的要素 。
1.2 系统组成要素
文章插图
构建一套实时的流媒体系统需要对系统中多个方面进行改进,除了视频编码标准外,媒体传送协议和视频渲染技术都需要实时化和低延迟处理 。视频编码方面,低延迟编码技术可以和多种编码标准进行结合 。
1.3 互动媒体服务系统的权衡
文章插图
互动媒体服务系统与单点技术不同,需要考虑多方面因素的权衡 。首先要满足低延迟,否则影响互动效果 。其次是高体验,互动媒体是在现有媒体上叠加的效果,所以体验是也应该是叠加式的,不能因为互动而使原有基础视频的画质下降 。最后是用户的大规模,与视频会议系统不同,一场会议很少会出现超过千人级的规模,互动流媒体场景下,由于更接近直播流媒体,它的用户数量会比较多 。
低延迟视频编码技术2.1 视频编解码
文章插图
第二部分介绍了低延迟视频编码的共性技术,这些技术可能会用在不同的编码方案中 。视频编码器有几大阵营,在分发域有:H.264/HEVC/VVC、AVS2/3、VP9/AV1,在分发域中压缩性能是它的主要驱动力 。在制作域有:TICO/JPEG-XS、JP2K、LLVC、XAVC、ProRes,这些编码器虽然是应用于视频中,但从技术角度来说更多是图像编码器 。
推荐阅读
- 诸病从寒起 寒从足下生 冬季养生先暖脚
- 冷锋过境严防心脏病突发 下雪天需警惕雪盲症
- |疫情当下的宜兴紫砂壶是怎样的呢?
- 元宇宙怎么下载?
- 一只黑壳虾能繁殖出多少只小虾 黑壳虾一次下多少小虾
- 地球另一端的人为什么不是倒立的 为什么地球另一端的人不会掉下来
- 《地下城堡3》塔姆与维德怎么杀?
- 黑壳虾繁殖下来一般多久长大 黑壳虾繁殖过程图
- 雪的世界如此安静 下雪为什么会变安静
- 观赏虾抱卵多久下小虾图片 虾子抱卵到孵化