互动场景下的低延迟编码技术( 四 ) _编码技术

除此之外，V-Nova公司也正在SMPTE的制作域中推VC-6，主要用于专业的内容制作和影像应用。它的卖点是结合了机器学习技术和优化的码率控制，使用intra-only配置，编码延迟为80ms，编码的HD流为60Mbps 。
应用场景和发展趋势4.1 应用场景

文章插图

图中展示的是不同延迟量级对应的应用场景的划分，低延迟要与不同场景进行耦合，不同场景对延迟量的要求不同。图中横轴表示编码延迟，根据延迟时间将场景分为四种，纵轴表示压缩比。

文章插图

秒级延迟场景以赛事直播为例，它对编码延迟要求并不高，之前一般采用H.264实时编码，对4K或8K视频开始使用H.265或AVS2编码标准实时编码。
百毫秒级延迟场景如视频通信、无线投屏，视频通信可接受的端到端延迟为~200ms 。以ZOOM为例，它采用了H.264标准编码，编码延迟为11ms（720p），端到端延迟要求低于150ms 。无线投屏以Miracast为例，它认证的无线设备端到端延迟不超过250ms，使用H.264和H.265（可选）标准，编码延迟约10~100ms 。

文章插图

十到一百毫秒级别称之为十毫秒级延迟场景，以云VR、云游戏为例，一般端到端延迟低于100ms时才能获得良好的体验。
NVIDA GeForce Now使用NVENC硬件编解码器可实现3-10ms的编码（H.265）和解码延迟，端到端延迟约75ms 。
google Stadia采用H.264和VP9编码标准，端到端延迟约130ms 。

文章插图

【互动场景下的低延迟编码技术】毫秒级延迟大多数场景不超过10毫秒，应用领域涵盖远程制作、数字孪生、高级XR等，往往同时需要非常高的视频质量和超低延迟，需要TSN/TTE（时间敏感/触发）类的基础网络架构支持，目前可选择的有JPEG-XS、SMPTE无压缩的解决方案，压缩效果还不太好，所以高压缩比下的超低延迟编解码仍然存在巨大技术挑战。
4.2 发展趋势

文章插图

近期在多视角、自由视方面，华为、优酷、咪咕都做过一些示范应用，即将原先导播切换的自由度传送到用户侧，由用户进行发送，用户在观看流媒体视频中可以根据自己的喜欢进行视角的切换，以实现媒体服务的个性化。

文章插图

以游戏类和远程操控类为代表的场景，以往观看流媒体是被动接收，现在大小屏都可以进行实时性交互，因此互动体验增强，这也是互动媒体发展的趋势。

文章插图

本次分享主要介绍了低延迟互动媒体服务中的低延迟视频编解码环节的相关技术。要做到较好的低延迟互动媒体服务，还需要低延迟传送协议、实时图像渲染以及基础ICT网络技术整体的演进。就编码而言，需要结合平台特性重构编码实现架构，细化编码各工具性能与延迟关系。
比较理想的做法是面向不同延迟的弹性编码方案，如右图所示，将RD曲线按照延迟-压缩比的关系，形成一套根据场景需求进行弹性配置的编码框架，这是近期低延迟编码努力的方向。