互动场景下的低延迟编码技术( 三 ) _编码技术

2.2.5 编码模式快速预测

文章插图

第三个方面涉及编码中各个模块的复杂度，当代编码器的编码模式比较多，组合量比较大，即使每种编码模式足够快也不行，核心在于如何快速的在众多候选模式中选出准确的哪个，这就需要根据某种属性快速做出决策。这时深度学习的方法可以发挥作用，近期我们的一个工作中，采用基于深度学习预测CU划分和基于统计学习预测PU模式组合，替换高复杂度的递归编码探索，实现在性能基本保持不变前提下实现复杂度的显著降低。
低延迟编码方案3.1 SVT构架

文章插图

这部分介绍一些典型的系统编码方案，首先是英特尔开源的SVT架构，它支持了前面所提到的很多要素，设计比较不错。
SVT构架细节

文章插图

SVT架构是基于软件的视频编码优化框架，通过联合前处理-编码内部算法，实现性能-延迟-质量的三维优化，并针对Xeon处理器进行优化。
之所以称SVT为三维并行架构，因为它解耦视频分析、模式选择与编码，实现进程级并行；分层GOP内的帧级并行；将一帧图像分为不同条块，实现条块级并行。
SVT也照顾到速度和码率的主观质量优化，对于速度方面的主观质量优化有：首先根据整体复杂度目标，设置搜索的划分模式集合；其次根据块的HVS重要性进行区分；对于码率方面的主观质量优化有：一是根据HVS重要性调整QP偏置；二是降低人眼不敏感区域变换域高频分量。
3.2 H.265低延迟方案

文章插图

SVT支持很多个编码器，以SVT-HEVC为例，它支持了13个preset（M0~M12），在速度和视觉质量之间实现了较好的权衡。其次，采用客观质量模式（默认）用于权衡速度和客观质量的关系，性能和速度优于x265 。而且，最快档次的延迟在百毫秒级别，压缩比在300：1左右，配合其他低延迟技术可以降为小几十毫秒级别。

文章插图

这部分介绍了H.265低延迟方案的硬件编码器，首先，NETINT基于自研芯片设计了Codensity T408视频转码器，在ASIC中进行复杂的编解码算法处理，从而最小化主机CPU的使用率，编码延迟约为5ms 。
其次，NVIDA基于GPU设计了NVENC编码器，可以大幅度释放CPU和内存的负载压力，编码延迟约为3-10ms 。
3.3 H.264低延迟方案

文章插图

前面的两个方案主要面向云端的转码、流媒体服务等，还有一类是面向移动终端的，除了低延迟之外，对功耗、复杂度要求更严格，在这种场景下使用比较多的方案是基于H.264 。H.264标准已经被工业界广泛认可和应用，其作为H.265的上一代标准，本身的编码复杂度相对较低，现有低延迟方案大都基于硬件设计。
左图是TPCast方案，它使用CAST公司的H.264-E-BPF IP核编码器，基于H.264 Baseline Profile设计。而且采用CAVLC选项降低熵编码复杂度，并采用帧内刷新技术降低比特率峰。它的编码延迟为10ms级别，压缩率为50：1 。
右图是HHI方案，它基于H.264 Baseline Profile设计，采用Intra（16×16和4×4）和VLC编码（不使用CABAC），编码延迟为宏块行级，压缩率为10：1~20：1 。两种方案应用的场景不同。
3.4 JPEG-XS低延迟方案

文章插图

JPEG-XS低延迟方案是更低延迟的方案，它支持Main、Light、Light-subline、High这4种配置编码延迟为毫秒甚至微秒级，视觉无损情况下的压缩率为2：1~6：1，是一个简化的帧内压缩技术。
它的编码过程有：样本拉伸、DC偏移量去除、可逆颜色变换、小波变换、预量化、常规量化、熵编码。JPEG-XS主要是由IntoPIX公司推动的。
3.5 新型的低复杂度/低延迟编码方案

文章插图

以V-Nova为代表介绍一下新型的低复杂度/低延迟编码方案，V-Nova P+立项的MPEG 5--LCEVC标准，为内容分发域提供高压缩率、低复杂度方案。
左图所展示的编码结构类似于可伸缩编码SVC，分为基本层和增加层，网络带宽的适应性不是其考虑重点，而是考虑终端的兼容性以及复杂度，面向内容分发域。可以应用的场景如当手机上有一块硬解码能力的芯片，支持264 HD，如果传来一个4K的内容，利用这种方案可以进行分层，基本层利用264 HD，增强层用HEVC 4K编码，这样基本层可以使用手机的硬解码264 HD能力，而增强层可以使用复杂度比较低的软件能力，将其进一步增强解码提升到4K 。