互动场景下的低延迟编码技术( 三 )


2.2.5 编码模式快速预测

互动场景下的低延迟编码技术

文章插图
 
第三个方面涉及编码中各个模块的复杂度,当代编码器的编码模式比较多,组合量比较大,即使每种编码模式足够快也不行,核心在于如何快速的在众多候选模式中选出准确的哪个,这就需要根据某种属性快速做出决策 。这时深度学习的方法可以发挥作用,近期我们的一个工作中,采用基于深度学习预测CU划分和基于统计学习预测PU模式组合,替换高复杂度的递归编码探索,实现在性能基本保持不变前提下实现复杂度的显著降低 。
低延迟编码方案3.1 SVT构架
互动场景下的低延迟编码技术

文章插图
 
这部分介绍一些典型的系统编码方案,首先是英特尔开源的SVT架构,它支持了前面所提到的很多要素,设计比较不错 。
SVT构架细节
互动场景下的低延迟编码技术

文章插图
 
SVT架构是基于软件的视频编码优化框架,通过联合前处理-编码内部算法,实现性能-延迟-质量的三维优化,并针对Xeon处理器进行优化 。
之所以称SVT为三维并行架构,因为它解耦视频分析、模式选择与编码,实现进程级并行;分层GOP内的帧级并行;将一帧图像分为不同条块,实现条块级并行 。
SVT也照顾到速度和码率的主观质量优化,对于速度方面的主观质量优化有:首先根据整体复杂度目标,设置搜索的划分模式集合;其次根据块的HVS重要性进行区分;对于码率方面的主观质量优化有:一是根据HVS重要性调整QP偏置;二是降低人眼不敏感区域变换域高频分量 。
3.2 H.265低延迟方案
互动场景下的低延迟编码技术

文章插图
 
SVT支持很多个编码器,以SVT-HEVC为例,它支持了13个preset(M0~M12),在速度和视觉质量之间实现了较好的权衡 。其次,采用客观质量模式(默认)用于权衡速度和客观质量的关系,性能和速度优于x265 。而且,最快档次的延迟在百毫秒级别,压缩比在300:1左右,配合其他低延迟技术可以降为小几十毫秒级别 。
互动场景下的低延迟编码技术

文章插图
 
这部分介绍了H.265低延迟方案的硬件编码器,首先,NETINT基于自研芯片设计了Codensity T408视频转码器,在ASIC中进行复杂的编解码算法处理,从而最小化主机CPU的使用率,编码延迟约为5ms 。
其次,NVIDA基于GPU设计了NVENC编码器,可以大幅度释放CPU和内存的负载压力,编码延迟约为3-10ms 。
3.3 H.264低延迟方案
互动场景下的低延迟编码技术

文章插图
 
前面的两个方案主要面向云端的转码、流媒体服务等,还有一类是面向移动终端的,除了低延迟之外,对功耗、复杂度要求更严格,在这种场景下使用比较多的方案是基于H.264 。H.264标准已经被工业界广泛认可和应用,其作为H.265的上一代标准,本身的编码复杂度相对较低,现有低延迟方案大都基于硬件设计 。
左图是TPCast方案,它使用CAST公司的H.264-E-BPF IP核编码器,基于H.264 Baseline Profile设计 。而且采用CAVLC选项降低熵编码复杂度,并采用帧内刷新技术降低比特率峰 。它的编码延迟为10ms级别,压缩率为50:1 。
右图是HHI方案,它基于H.264 Baseline Profile设计,采用Intra(16×16和4×4)和VLC编码(不使用CABAC),编码延迟为宏块行级,压缩率为10:1~20:1 。两种方案应用的场景不同 。
3.4 JPEG-XS低延迟方案
互动场景下的低延迟编码技术

文章插图
 
JPEG-XS低延迟方案是更低延迟的方案,它支持Main、Light、Light-subline、High这4种配置编码延迟为毫秒甚至微秒级,视觉无损情况下的压缩率为2:1~6:1,是一个简化的帧内压缩技术 。
它的编码过程有:样本拉伸、DC偏移量去除、可逆颜色变换、小波变换、预量化、常规量化、熵编码 。JPEG-XS主要是由IntoPIX公司推动的 。
3.5 新型的低复杂度/低延迟编码方案
互动场景下的低延迟编码技术

文章插图
 
以V-Nova为代表介绍一下新型的低复杂度/低延迟编码方案,V-Nova P+立项的MPEG 5--LCEVC标准,为内容分发域提供高压缩率、低复杂度方案 。
左图所展示的编码结构类似于可伸缩编码SVC,分为基本层和增加层,网络带宽的适应性不是其考虑重点,而是考虑终端的兼容性以及复杂度,面向内容分发域 。可以应用的场景如当手机上有一块硬解码能力的芯片,支持264 HD,如果传来一个4K的内容,利用这种方案可以进行分层,基本层利用264 HD,增强层用HEVC 4K编码,这样基本层可以使用手机的硬解码264 HD能力,而增强层可以使用复杂度比较低的软件能力,将其进一步增强解码提升到4K 。


推荐阅读