抖音世界杯直播的低延迟是怎么做到的？- 汇维网

,到更低的延迟，是一个巨大的挑战。本文主要介绍世界杯期间火山引擎视频云和相关团队在低延迟上的工作和优化，作为低延迟方向上的总结。,本文主要讨论生产和传输环节的延迟。生产环节的延迟主要受视频流供应商控制，技术团队可以实现的是，尽可能准确地测量出生产的每一个环节的实际延迟，并在发现不合理的情况时推动供应商解决。传输环节的延迟技术团队更可控，也是本次优化的重点。这部分技术能力可以作为火山引擎视频云的优势能力积累并对外提供服务。在优化的过程中，一个越来越清晰的认知是：降低延迟并不困难，难的是延迟降低之后，怎么通过优化保证播放体验不下降甚至变得更好。,首先简单介绍下世界杯直播的整个分发链路，还有每个环节的延迟的测量方法，让大家对整体的链路有初步的全局认识。,,测算方法：,,,延迟测量手册：,,网络流信号源在给到抖音之前存在多个环节，每个环节都可能会对最终的延迟有影响，但这一部分技术团队可以影响的比较少，主要是运营同学在沟通。,演播室在收到央视的源流之后，需要加上解说和包装，所以也会引入一定的延迟。这次抖音的多个演播室是由多家第三方公司负责的，第三方公司的制作规格不一，在正式比赛之前经过大量的沟通，基本确认最重要的两个演播室的技术方案和使用的编码系统是一致的。,不过这次在演播室环节引入的延迟仍然偏高，达到了 1.5s 左右，和供应商工程师沟通后，短期内为了保证稳定，没有再进一步压缩了，这部分引入的延迟和竞品也是一致的。,下图是一次直播的简化的流程：,,直播的传输环节里，对延迟影响大的主要是转码、分发和播放缓冲，使用实时的转码模式，转码器引入的延迟一般在 300ms 以内甚至更短。CDN 的分发环节也会带来一定的延迟，但相对也较短。为了对抗网络抖动引入的播放缓冲区引入的延迟播放缓冲引入的延迟常常会有 5s 甚至更多，所以本文主要讨论怎么在减少播放缓冲的情况下，通过不断地优化延迟降低的同时不影响整体的播放体验(不仅仅是卡顿) 。在调优过程中，大家对播放体验也有了更细致、更深的理解，逐渐弄清楚了哪些 QoS 指标可以对关键的 QoE 指标产生直接的影响，对以后要优化的方向也更明确了。,FLV 是现在国内主流直播播放使用的协议，火山引擎对低延迟直播的探索也是从 FLV 开始的。在百万英雄、内购会等活动中，FLV 低延迟方案也多次得到了验证。,之前详细介绍过 FLV-3s 方案在抖音落地的详细实践过程(细节内容可跳转到基于 http-FLV 的抖音直播端到端延迟优化实践），同时提出过基于 FLV 方案做更低延迟下探，所面临的挑战也会更大：更低延迟的场景对直播全链路的传输稳定性要求苛刻程度会几何倍数增加，由于端到端链路的整体 buffer 更低，生产环节或者观众网络抖动，就更容易发生卡顿。只要发生一次卡顿，延迟就会秒级增加，最终累积延迟会越来越大。而世界杯赛事延迟要求达到 2s，继续延续 FLV-3s 方案显然达不到要求，需要配合精细的追帧或者丢帧策略。,音视频数据流转时序,数据驱动 QoE & QoS 优化,收益总结,调优经验总结,RTM 的方案参考了 WebRTC，可以让端到端延迟直接进入 1s 以内，已经持续在抖音上打磨了一年多，整体来说遇到的困难很大，在推进的过程也不断地发现了新的问题，也逐渐认识到，直接把 RTC 在视频会议上的方案应用到直播播放场景的效果并不好，需要做大量的改造才能让直播的体验得到抖音用户的认可。同时评测的同学也持续对行业内已经上线的类似方案进行了跟踪和测试，经过线上测试后，也发现现有多方案也存在很多问题, 所以一直也没有停止自研。RTM 优化的目标是在延迟降低的情况下，用户核心体验指标对齐或者优于大盘的 FLV 方案。但是由于 FLV 低延迟方案的持续优化并拿到结果，一定程度上 RTM 的优化目标的 bar 是在不断提高的。,每次迭代都要经过分析数据->找到问题点->提出优化方案->完成开发和测试->AB 实验->分析数据的反复循环，每一次循环的都需要至少一个版本甚至多个版本的周期，所以项目整体耗时较长。关于如何提升实验的效率，也做了很多思考和探索。最后通过多次的实验和反复的问题解决，在核心用户体验指标基本对齐了 FLV,所以在世界杯的多场比赛中，RTM 方案也承担了一定量级的 CDN 容量，核心键指标上都对齐了大盘，稳定性和质量得到了充分的验证。,项目启动后，将 RTC 实时通信 SDK 直接集成进入播放器后首先进行线上 AB 测试，初期的实验效果显得大跌眼镜：除了端到端延迟指标符合预期以外无论是拉流成功率，首屏秒开时间，卡顿等指标均与 FLV 差距很大；所以 RTC 技术方案要顺利部署到直播场景，还需要配合直播播控策略进一步优化。,为了让 RTM 的综合指标对齐 FLV，从若干角度来进行 RTM 的播控逻辑定制化，所有的优化围绕着核心用户体验指标进行展开：,传统的 RTC 技术采用 SDP 信令方式进行媒体能力协商，SDP 信令通过如下图方式进行交互参见下图：,,但是 HTTP SDP 信令交互存在如下方案的弊端：弱网环境下(如 RTT 较大/网络信号不稳定)，HTTP 信令建联成功率不理想；导致播放请求响应缓慢或超时（基于信令数据包庞大且发生 TCP 重传导致信令响应速度不理想）；另一方面 SDP 交互传输 SDP 文本的内容很大（通常 3KB~10KB）建联的成本较高导致初始化的成本无法忍受；对比 FLV 的 HTTP 请求完成后直接完成建联和媒体数据直接传输，可以采用新的信令模式：MiniSDP 信令。这是一种基于二进制编码的压缩协议，提供对标准 SDP 协议进行压缩处理；这种方案可以降低信令交互时间，提高网络传输效能，降低直播拉流首帧渲染时间，提高拉流秒开率/成功率等 QoS 统计指标。其作用原理是将原生 SDP 转换成更小的二进制格式（300bytes）通过一个 UDP 包（MTU 限制之内）完成整个 C/S 交互。,采用 MiniSDP 信令进行媒体协商通信的信令交互流程如下图所示：采用 MiniSDP 压缩信令方式利用 UDP 网络传输；预期单个 UDP 数据包请求即可完成 SDP 完整压缩信息的传输。,,当前 MiniSDP 信令（UDP）信令上线后观察后续的 QoS 指标发现，信令建联的成功率和首帧时间得到了大幅度的优化。,经过线上的 AB 实验发现：RTM 拉流成功率相比 FLV 持续存在着一定的差距，而且这种差距经过观察得知：用户的网络等级质量和用户的拉流成功率存在一定的正相关性（UDP 协议本身特性），即用户网络质量越高成功率越高。,拉流网络等级筛选,UDP 节点探测,信令预加载,内核 JitterBuffer 禁用丢帧优化,RTC 内核 JitterBuffer 平滑出帧优化,,RTM 网络传输 SDK 的抽象：将内核进行改造，复用引擎中的网络传输-组包-JitterBuffer/NetEQ 模块；去掉解码/渲染等模块；将音视频的裸数据抛出供播放器 demuxer 集成。,解码器复用：降低解码器重新初始化的时间，降低解码首帧延时；复用解码器-渲染器的播放缓冲区控速逻辑。,音画同步的优化：RTC 音视频出帧之后在播放器侧按照 FLV 的播控逻辑进行二次音画同步处理；按照 audio master clock 主时钟进行渲染校准，视频帧渲染同步到音频时间轴上。,本次世界杯超高清档位的分辨率达到了 4K，对 RTM 方案的性能带来了很大的挑战，在前期测试时也发现了一些低分辨率没有的问题。当时时间非常紧，不过在正式比赛之前，还是完成了这些问题的修复，赶上了最后一班车。主要的问题和解决方案如下：,最终在性能和效果都通过了测试，RTM 在世界杯期间也顺利上线，承担了一定的流量，上线后稳定性和质量都符合预期。,在实际的世界杯比赛中，抖音的延迟一直领先于相同信号源的其它产品 30s 左右。即使最后两场其它产品在个别直播间上了快速追赶策略比抖音快 0~1s，但追的速度过快且持续时间超过 15s+，有明显感知，体验相对较差，这种策略在抖音上也曾经做过 AB 实验 ，播放时长是显著负向的，所以最后并没有跟进。,未来在高清、沉浸、互动的直播场景中，针对高码率、低延迟的需求，火山引擎视频云会继续打磨现有的适合不同场景的各种低延迟的方案，同时也会不断地探索新的方案，在延迟、成本、卡顿和其它播放体验上找到适合不同场景的最佳或者最平衡的方案。,在我看来，火山引擎视频云的最大的优势，在于可以把先进的技术放到真实的海量用户的场景去做线上训练，通过不断地总结失败的教训和成功的经验，对用户体验有更深更细微的理解。下面简单介绍一下火山引擎视频云在各个方案上继续努力的方向。,在 RTM 方案上，火山引擎视频云还在不断地发掘优化点。以下几点是未来会继续探索的几个方向：,拉流成功率的持续改进,RTP 扩展特性的持续迭代,RTM 是降低延迟的一种全新方案，为了把在海量用户的业务上积累的经验和教训反馈给整个业界，火山引擎视频云也联合腾讯和阿里发起了 RTM 行业标准的制订，具体可以参考 https://www.volcengine.com/docs/6469/103014，未来也会把标准推广到更多的 CDN，不断完善的同时，和业界一起向更低延迟演进。对 RTM 方案感兴趣的，可以点击阅读原文，进入火山引擎视频云官网了解细节和进一步试用。,海外的 CDN 基本都只支持切片式的协议如 HLS/Dash 等，不支持 FLV 这类“过时”的传输协议。但 HLS/Dash 因为切片的存在，而且为了保证视频的压缩率，切片一般都是秒级的，且需要切片完全生成才能分发该分片，并且需要至少两三个分片都生成完才能分发，所以和流式的协议相比，延迟上天然有一些劣势。其实这也是竞品使用的方式，如下图，每个分片 6s，在三个分片生成完后才可以分发，带来了 23s 的延迟。世界杯期间，在视频同源的情况下，其它产品的延迟显著高于 抖音 ，就是因为使用了类似的 HLS 的切片传输方案。,,但随着 Akamai 和 Apple 分别提出了 CMAF 和 LL-HLS，引入了 fmp4 和 chunk 的概念，可以实现分片没有完全生成的时候就开始分发分片的部分 chunk，延迟下限有了很大程度的下降。如下图，延迟可以降到 1s。,,火山引擎视频云在 Apple 提出 LL-HLS 之前就跟进了 CMAF，在 CMAF 的延迟和卡顿、拉流成功率上的优化上也持续有不小的投入。现在回顾 CMAF 的优化的过程，可以发现其实要解决的问题和 RTM 有很大的相似性，比如 CMAF 也存在拉流成功率、音画同步、性能问题，优化前在核心 体验指标 上同样显著差于 FLV。,与 FLV 的流式传输不同，CMAF 需要依赖用户不断发起各个分片的请求来获取音视频数据，如果继续采用 FLV 的请求模式，即建连->请求->响应->断开连接，会引入大量的建连耗时，造成卡顿，同时导致延迟的增大。做一个简单的计算，假设每个切片是 2s，那么平均 1s 就会有一次音频或视频请求的建连，这对于网络较差，尤其是高 RTT 的用户来说是不可接受的，如果此时为了低延迟强行降低 buffer 水位，建连时的缓存消耗将导致频繁的卡顿。,为此，可以在 CMAF 上采用 QUIC 协议与连接复用结合的方式，首先 QUIC 协议的 0-RTT 建连允许客户端在服务端确认握手成功之前就发出 HTTP 请求，而连接复用直接省去了后续请求的建连操作，大幅优化了建连耗时，维持延迟的稳定。但即使如此，每个分片的请求也会引入 1-RTT 的延迟，未来将与服务端一起探索预请求模式，进一步压缩延迟、降低卡顿。,,CMAF 优化的整体难度较大，团队同学也经常需要在半夜和海外的 CDN 的工程师对齐和解决问题。不过经过不断的努力，最近在部分地区的也已经有了阶段性的进展，在部分场景下核心指标已经对齐 FLV，团队也有信心在最近一段时间就能去掉机型和网络类型的限制，让 CMAF 可以承载更多常规比例的流量。,XR 直播的沉浸感以及高交互性是普通直播无法比拟的，但是这也导致了传输层需要承担更大的压力：分辨率为 8K x 4K 或 8K x 8K, 源流码率达到 50M 甚至120M、非常容易因为拥塞导致卡顿、延迟增大，甚至无法正常解码播放。火山引擎视频云的做法是将 8K 的视频切分成多个块(tile)，只传输用户视角(viewport)内的部分超高清块，其它区域只传输 2K 或 4K 分辨率的缩小后的背景流，在用户切换视角的时候再去重新请求新的超高清块。当然这里需要把切换延迟尽可能降到更低，经过长时间的优化，切换延迟已经降低到非常低，一般情况下已经感受不到切换的过程，未来会持续优化，让切换延迟更低。,这两种做法都引入了优先级的概念，即用户视角内的数据优先级高于其他部分，低清数据优先级高于高清数据。基于这种特性，火山引擎视频云将探索基于 UDP 的内容优先级感知的传输方案，优先保障高优数据的传输，对于低优数据可选择非可靠传输，即使丢失也无需重传，保证 XR 直播低延迟的同时不引入过大的视觉失真。经过优化后，在传输 8K x 8K/8K x 4K 的超高清视频时对播放端的码率要求从 120M/50M 降低到 20M/10M 左右甚至更低，在用户侧极大地减少了卡顿发生的概率，从而也减少了延迟增大的概率。未来火山引擎视频云也会持续优化 XR 直播下在更高码率更高分辨率下的卡顿和延迟，为用户提供更沉浸的观看体验。