视频直播技术大全、直播架构、技术原理和实现思路方案整理（转）

直播难：个人认为要想把直播从零开始做出来，绝对是牛逼中的牛逼，大牛中的大牛，因为直播中运用到的技术难点非常之多，视频/音频处理，图形处理，视频/音频压缩，CDN分发，即时通讯等技术，每一个技术都够你学几年的。

直播易：已经有各个领域的大牛，封装好了许多牛逼的框架，我们只需要用别人写好的框架，就能快速的搭建一个直播app，也就是传说中的站在大牛肩膀上编程。

通用直播模型

首先是主播方，它是产生视频流的源头，由一系列流程组成：第一，通过一定的设备来采集数据；第二，将采集的这些视频进行一系列的处理，比如水印、美颜和特效滤镜等处理；第三，将处理后的结果视频编码压缩成可观看可传输的视频流；第四，分发推流，即将压缩后的视频流通过网络通道传输出去。

其次是播放端，播放端功能有两个层面，第一个层面是关键性的需求；另一层面是业务层面的。先看第一个层面，它涉及到一些非常关键的指标，比如秒开，在很多场景当中都有这样的要求，然后是对于一些重要内容的版权保护。为了达到更好的效果，我们还需要配合服务端做智能解析，这在某些场景下也是关键性需求。再来看第二个层面也即业务层面的功能，对于一个社交直播产品来说，在播放端，观众希望能够实时的看到主播端推过来的视频流，并且和主播以及其他观众产生一定的互动，因此它可能包含一些像点赞、聊天和弹幕这样的功能，以及礼物这样更高级的道具。

我们知道，内容产生方和消费方一般都不是一一对应的。对于一个直播产品来讲，最直观的体现就是一个主播可能会有很多粉丝。因此，我们不能直接让主播端和所有播放端进行点对点通信，这在技术上是做不到或者很有难度。主播方播出的视频到达播放端之前，需要经过一系列的中间环节，也就是我们这里讲的直播服务器端。

直播服务器端提供的最核心功能是收集主播端的视频推流，并将其放大后推送给所有观众端。除了这个核心功能，还有很多运营级别的诉求，比如鉴权认证，视频连线和实时转码，自动鉴黄，多屏合一，以及云端录制存储等功能。另外，对于一个主播端推出的视频流，中间需要经过一些环节才能到达播放端，因此对中间环节的质量进行监控，以及根据这些监控来进行智能调度，也是非常重要的诉求。

实际上无论是主播端还是播放端，他们的诉求都不会仅仅是拍摄视频和播放视频这么简单。在这个核心诉求被满足之后，还有很多关键诉求需要被满足。比如，对于一个消费级的直播产品来说，除了这三大模块之外，还需要实现一个业务服务端来进行推流和播放控制，以及所有用户状态的维持。如此，就构成了一个消费级可用的直播产品。

但是正如刚才所说的直播通用模型一样，实际上这里很多功能都可以抽象成一个通用功能，也就是说各家直播产品的需求和实现方式都类似。

直播架构

直播App 架构和技术点

直播APP的业务逻辑不复杂，使用基本的MVC框架即可。

部分Controller的业务逻辑较多，独立的业务可以拆分出去作为一个单独的Catagory；
Model的数据变化采用event（notification）的形式通知，便于做多处数据绑定；
Model之间的相互独立，如果由业务需要，需要交换Model的数据，由Controller代为处理；
HTTPService为AFNetworking封装，回调Model以Block块为主，特殊的业务逻辑以event（notification）的形式通知；

一个完整直播APP功能

聊天: 私聊、聊天室、点亮、推送、黑名单等;
礼物: 普通礼物、豪华礼物、红包、排行榜、第三方充值、内购、礼物动态更新、提现等；
直播列表: 关注、热门、最新、分类直播用户列表等；
自己直播: 录制、推流、解码、播放、美颜、心跳、后台切换、主播对管理员操作、管理员对用户等；
房间逻辑: 创建房间、进入房间、退出房间、关闭房间、切换房间、房间管理员设置、房间用户列表等；
用户逻辑: 普通登陆、第三方登陆、注册、搜索、修改个人信息、关注列表、粉丝列表、忘记密码、查看个人信息、收入榜、关注和取关、检索等；
观看直播: 聊天信息、滚屏弹幕、礼物显示、加载界面等；
统计: APP业务统计、第三方统计等；
超管: 禁播、隐藏、审核等；

一个完整直播app实现流程

1.采集、2.滤镜处理、3.编码、4.推流、5.CDN分发、6.拉流、7.解码、8.播放、9.聊天互动

了解流媒体（直播需要用到流媒体）

流媒体开发:网络层(socket或st)负责传输，协议层(rtmp或hls)负责网络打包，封装层(flv、ts)负责编解码数据的封装，编码层(h.264和aac)负责图像，音频压缩。
帧:每帧代表一幅静止的图像
GOP:（Group of Pictures）画面组，一个GOP就是一组连续的画面，每个画面都是一帧，一个GOP就是很多帧的集合。
☞ 直播的数据，其实是一组图片，包括I帧、P帧、B帧，当用户第一次观看的时候，会寻找I帧，而播放器会到服务器寻找到最近的I帧反馈给用户。因此，GOP Cache增加了端到端延迟，因为它必须要拿到最近的I帧
☞ GOP Cache的长度越长，画面质量越好
码率：图片进行压缩后每秒显示的数据量。
帧率：每秒显示的图片数。影响画面流畅度，与画面流畅度成正比：帧率越大，画面越流畅；帧率越小，画面越有跳动感。
☞ 由于人类眼睛的特殊生理结构，如果所看画面之帧率高于16的时候，就会认为是连贯的，此现象称之为视觉暂留。并且当帧速达到一定数值后，再增长的话，人眼也不容易察觉到有明显的流畅度提升了。
分辨率：(矩形)图片的长度和宽度，即图片的尺寸
压缩前的每秒数据量:帧率X分辨率(单位应该是若干个字节)
压缩比:压缩前的每秒数据量/码率（对于同一个视频源并采用同一种视频编码算法，则：压缩比越高，画面质量越差。）
视频文件格式：文件的后缀，比如.wmv,.mov,.mp4,.mp3,.avi,
☞ 主要用处，根据文件格式，系统会自动判断用什么软件打开,
注意: 随意修改文件格式，对文件的本身不会造成太大的影响，比如把avi改成mp4,文件还是avi.
视频封装格式：一种储存视频信息的容器，流式封装可以有TS、FLV等，索引式的封装有MP4,MOV,AVI等，
☞ 主要作用：一个视频文件往往会包含图像和音频，还有一些配置信息(如图像和音频的关联，如何解码它们等)：这些内容需要按照一定的规则组织、封装起来.
☞ 注意：会发现封装格式跟文件格式一样，因为一般视频文件格式的后缀名即采用相应的视频封装格式的名称,所以视频文件格式就是视频封装格式。
视频封装格式和视频压缩编码标准：就好像项目工程和编程语言，封装格式就是一个项目的工程，视频编码方式就是编程语言，一个项目工程可以用不同语言开发。

直播基础知识介绍

采集视频、音频

采集视频、音频编码框架：AVFoundation:AVFoundation是用来播放和创建实时的视听媒体数据的框架，同时提供Objective-C接口来操作这些视听数据，比如编辑，旋转，重编码

视频、音频硬件设备

CCD:图像传感器：用于图像采集和处理的过程，把图像转换成电信号。
拾音器:声音传感器：用于声音采集和处理的过程，把声音转换成电信号。
音频采样数据:一般都是PCM格式
视频采样数据: 一般都是YUV,或RGB格式，采集到的原始音视频的体积是非常大的，需要经过压缩技术处理来提高传输效率

视频处理（美颜，水印）

视频处理原理:因为视频最终也是通过GPU，一帧一帧渲染到屏幕上的，所以我们可以利用OpenGL ES，对视频帧进行各种加工，从而视频各种不同的效果，就好像一个水龙头流出的水，经过若干节管道，然后流向不同的目标
现在的各种美颜和视频添加特效的app都是利用GPUImage这个框架实现的.

视频处理框架

GPUImage : GPUImage是一个基于OpenGL ES的一个强大的图像/视频处理框架,封装好了各种滤镜同时也可以编写自定义的滤镜,其本身内置了多达120多种常见的滤镜效果。
OpenGL:OpenGL（全写Open Graphics Library）是个定义了一个跨编程语言、跨平台的编程接口的规格，它用于三维图象（二维的亦可）。OpenGL是个专业的图形程序接口，是一个功能强大，调用方便的底层图形库。
OpenGL ES:OpenGL ES (OpenGL for Embedded Systems) 是 OpenGL三维图形 API 的子集，针对手机、PDA和游戏主机等嵌入式设备而设计。

视频编码解码框架

FFmpeg:是一个跨平台的开源视频框架,能实现如视频编码,解码,转码,串流,播放等丰富的功能。其支持的视频格式以及播放协议非常丰富,几乎包含了所有音视频编解码、封装格式以及播放协议。
☞ -Libswresample:可以对音频进行重采样,rematrixing 以及转换采样格式等操作。
☞ -Libavcodec:提供了一个通用的编解码框架,包含了许多视频,音频,字幕流等编码/解码器。
☞ -Libavformat:用于对视频进行封装/解封装。
☞ -Libavutil:包含一些共用的函数,如随机数生成,数据结构,数学运算等。
☞ -Libpostproc:用于进行视频的一些后期处理。
☞ -Libswscale:用于视频图像缩放,颜色空间转换等。
☞ -Libavfilter:提供滤镜功能。
X264:把视频原数据YUV编码压缩成H.264格式
VideoToolbox:苹果自带的视频硬解码和硬编码API，但是在iOS8之后才开放。
AudioToolbox:苹果自带的音频硬解码和硬编码API

视频编码技术

视频压缩编码标准：对视频进行压缩(视频编码)或者解压缩（视频解码）的编码技术,比如MPEG，H.264,这些视频编码技术是压缩编码视频的
☞ 主要作用:是将视频像素数据压缩成为视频码流，从而降低视频的数据量。如果视频不经过压缩编码的话，体积通常是非常大的，一部电影可能就要上百G的空间。
☞ 注意:最影响视频质量的是其视频编码数据和音频编码数据，跟封装格式没有多大关系
MPEG:一种视频压缩方式，它采用了帧间压缩，仅存储连续帧之间有差别的地方，从而达到较大的压缩比
H.264/AVC:一种视频压缩方式,采用事先预测和与MPEG中的P-B帧一样的帧预测方法压缩，它可以根据需要产生适合网络情况传输的视频流,还有更高的压缩比，有更好的图象质量
☞ 注意1:如果是从单个画面清晰度比较，MPEG4有优势；从动作连贯性上的清晰度，H.264有优势
☞ 注意2:由于264的算法更加复杂，程序实现烦琐，运行它需要更多的处理器和内存资源。因此，运行264对系统要求是比较高的。
☞ 注意3:由于264的实现更加灵活，它把一些实现留给了厂商自己去实现，虽然这样给实现带来了很多好处，但是不同产品之间互通成了很大的问题，造成了通过A公司的编码器编出的数据，必须通过A公司的解码器去解这样尴尬的事情
H.265/HEVC:一种视频压缩方式,基于H.264，保留原来的某些技术，同时对一些相关的技术加以改进，以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。
☞ H.265 是一种更为高效的编码标准，能够在同等画质效果下将内容的体积压缩得更小，传输时更快更省带宽
☞ I帧:(关键帧)保留一副完整的画面，解码时只需要本帧数据就可以完成（因为包含完整画面）
P帧:(差别帧)保留这一帧跟之前帧的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（P帧没有完整画面数据，只有与前一帧的画面差别的数据）
B帧:(双向差别帧)保留的是本帧与前后帧的差别，解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累
帧内（Intraframe）压缩:当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,帧内一般采用有损压缩算法
帧间（Interframe）压缩:时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的
muxing（合成）：将视频流、音频流甚至是字幕流封装到一个文件中(容器格式（FLV，TS）)，作为一个信号进行传输。

音频编码技术

AAC，mp3：这些属于音频编码技术,压缩音频用

码率控制

多码率:观众所处的网络情况是非常复杂的，有可能是WiFi，有可能4G、3G、甚至2G，那么怎么满足多方需求呢？多搞几条线路，根据当前网络环境自定义码率。
☞ 例如：常常看见视频播放软件中的1024，720，高清，标清，流畅等，指的就是各种码率。

视频封装格式

TS : 一种流媒体封装格式，流媒体封装有一个好处，就是不需要加载索引再播放，大大减少了首次载入的延迟，如果片子比较长，mp4文件的索引相当大，影响用户体验
☞ 为什么要用TS:这是因为两个TS片段可以无缝拼接，播放器能连续播放
FLV: 一种流媒体封装格式,由于它形成的文件极小、加载速度极快，使得网络观看视频文件成为可能,因此FLV格式成为了当今主流视频格式

推流

数据传输框架

librtmp:用来传输RTMP协议格式的数据

流媒体数据传输协议

RTMP(Real Time Messaging Protocol，实时消息传输协议)属于五层TCP/IP体系中的应用层，它是基于TCP传输的流媒体协议，默认端口为1935，是一个协议族，包括RTMP基本协议及RTMPT、RTMPS、REMPE等多种变种。RTMP协议是Adobe System公司为Flash播放器和FMS服务器之间音视频和数据传输开发的私有协议，用来解决多媒体数据传输流的多路复用（Multiplexing）和分包（packetizing）的问题，基于此协议，abobe提供完善的音视频解决方案，比如点播、直播、互动。
☞ RTMP协议用于对象、视频、音频的传输。
☞ 这个协议建立在TCP协议或者轮询HTTP协议之上。
☞ RTMP协议就像一个用来装数据包的容器，这些数据可以是FLV中的视音频数据。一个单一的连接可以通过不同的通道传输多路网络流，这些通道中的包都是按照固定大小的包传输的
☞ chunk:消息包

流媒体服务器

常用服务器

SRS：一款国人开发的优秀开源流媒体服务器系统
BMS:也是一款流媒体服务器系统，但不开源，是SRS的商业版，比SRS功能更多
nginx:免费开源web服务器，常用来配置流媒体服务器。

流媒体SRS 4.0开发入门

数据分发

CDN：(Content Delivery Network)，即内容分发网络,将网站的内容发布到最接近用户的网络”边缘”，使用户可以就近取得所需的内容，解决 Internet网络拥挤的状况，提高用户访问网站的响应速度.
☞ CDN：代理服务器，相当于一个中介。
☞ CDN工作原理：比如请求流媒体数据
☞☞ 1.上传流媒体数据到服务器（源站）
☞☞ 2.源站存储流媒体数据
☞☞ 3.客户端播放流媒体，向CDN请求编码后的流媒体数据
☞☞ 4.CDN的服务器响应请求，若节点上没有该流媒体数据存在，则向源站继续请求流媒体数据；若节点上已经缓存了该视频文件，则跳到第6步。
☞☞ 5.源站响应CDN的请求，将流媒体分发到相应的CDN节点上
☞☞ 6.CDN将流媒体数据发送到客户端
回源：当有用户访问某一个URL的时候，如果被解析到的那个CDN节点没有缓存响应的内容，或者是缓存已经到期，就会回源站去获取搜索。如果没有人访问，那么CDN节点不会主动去源站拿.
带宽:在固定的时间可传输的数据总量，
☞ 比如64位、800MHz的前端总线，它的数据传输率就等于64bit×800MHz÷8(Byte)=6.4GB/s
负载均衡: 由多台服务器以对称的方式组成一个服务器集合，每台服务器都具有等价的地位，都可以单独对外提供服务而无须其他服务器的辅助.
☞ 通过某种负载分担技术，将外部发送来的请求均匀分配到对称结构中的某一台服务器上，而接收到请求的服务器独立地回应客户的请求。
☞ 均衡负载能够平均分配客户请求到服务器列阵，籍此提供快速获取重要数据，解决大量并发访问服务问题。
☞ 这种群集技术可以用最少的投资获得接近于大型主机的性能。
QoS（带宽管理）:限制每一个组群的带宽，让有限的带宽发挥最大的效用

拉流

直播协议选择：
☞ 即时性要求较高或有互动需求的可以采用RTMP,RTSP
☞ 对于有回放或跨平台需求的，推荐使用HLS

HLS:由Apple公司定义的用于实时流传输的协议,HLS基于HTTP协议实现，传输内容包括两部分，一是M3U8描述文件，二是TS媒体文件。可实现流媒体的直播和点播，主要应用在iOS系统
☞ HLS是以点播的技术方式来实现直播
☞ HLS是自适应码率流播，客户端会根据网络状况自动选择不同码率的视频流，条件允许的情况下使用高码率，网络繁忙的时候使用低码率，并且自动在二者间随意切换。这对移动设备网络状况不稳定的情况下保障流畅播放非常有帮助。
☞ 实现方法是服务器端提供多码率视频流，并且在列表文件中注明，播放器根据播放进度和下载速度自动调整。
HLS与RTMP对比:HLS主要是延时比较大，RTMP主要优势在于延时低
☞ HLS协议的小切片方式会生成大量的文件，存储或处理这些文件会造成大量资源浪费
☞ 相比使用RTSP协议的好处在于，一旦切分完成，之后的分发过程完全不需要额外使用任何专门软件，普通的网络服务器即可，大大降低了CDN边缘服务器的配置要求，可以使用任何现成的CDN,而一般服务器很少支持RTSP。
HTTP-FLV:基于HTTP协议流式的传输媒体内容。
☞ 相对于RTMP，HTTP更简单和广为人知，内容延迟同样可以做到1~3秒，打开速度更快，因为HTTP本身没有复杂的状态交互。所以从延迟角度来看，HTTP-FLV要优于RTMP
RTSP:实时流传输协议,定义了一对多应用程序如何有效地通过IP网络传送多媒体数据.
RTP:实时传输协议,RTP是建立在UDP协议上的，常与RTCP一起使用，其本身并没有提供按时发送机制或其它服务质量（QoS）保证，它依赖于低层服务去实现这一过程。
RTCP:RTP的配套协议,主要功能是为RTP所提供的服务质量（QoS）提供反馈，收集相关媒体连接的统计信息，例如传输字节数，传输分组数，丢失分组数，单向和双向网络延迟等等。

音视频高级开发-直播架构分析、低延迟播放器-变速播放实现
 直播如何做到低延迟/为什么不能使用vlc、ffplay做延迟测试

解码

解封装

demuxing（分离）：从视频流、音频流，字幕流合成的文件(容器格式（FLV，TS）)中，分解出视频、音频或字幕，各自进行解码。

音频编码框架

fdk_aac:音频编码解码框架，PCM音频数据和AAC音频数据互转

解码介绍

硬解码：用GPU来解码，减少CPU运算
☞ 优点：播放流畅、低功耗，解码速度快，
☞ 缺点：兼容不好
软解码：用CPU来解码
☞ 优点：兼容好
☞ 缺点：加大CPU负担，耗电增加、没有硬解码流畅，解码速度相对慢

播放

ijkplayer:一个基于FFmpeg的开源Android/iOS视频播放器
☞ API易于集成；
☞ 编译配置可裁剪，方便控制安装包大小；
☞ 支持硬件加速解码，更加省电
☞ 简单易用，指定拉流URL，自动解码播放.

音视频开发必知必会的播放器设计实现 ffplay / ijkplayer / vlc的播放器设计实现

聊天互动

IM:(InstantMessaging)即时通讯:是一个实时通信系统，允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流.

IM在直播系统中的主要作用是实现观众与主播、观众与观众之间的文字互动.

第三方SDK
☞ 腾讯云：腾讯提供的即时通讯SDK，可作为直播的聊天室
☞ 融云：一个比较常用的即时通讯SDK，可作为直播的聊天室

万人直播-流媒体服务器框架分析

版权声明：本文为CSDN博主「架构师易筋」的原创文章，
原文链接：https://blog.csdn.net/zgpeace/article/details/108552358

音视频流媒体学习资料、配套视频学习交流群973961276 获取

发布于 2021-10-29 21:01 原文 https://zhuanlan.zhihu.com/p/427306816

posted @ 2022-05-17 09:21 小y 阅读(1856) 评论(0) 收藏举报

刷新页面返回顶部

DotNet笔记

兴趣是最好的老师。

视频直播技术大全、直播架构、技术原理和实现思路方案整理（转）

通用直播模型

直播架构

直播App 架构和技术点

一个完整直播APP功能

一个完整直播app实现流程

了解流媒体（直播需要用到流媒体）

直播基础知识介绍

采集视频、音频

视频处理（美颜，水印）

视频编码解码框架

视频编码技术

音频编码技术

码率控制

视频封装格式

推流

流媒体服务器

拉流

解码

播放

聊天互动

公告

DotNet笔记

兴趣是最好的老师。

视频直播技术大全、直播架构、技术原理和实现思路方案整理（转）

通用直播模型

直播架构

直播App 架构 和 技术点

一个完整直播APP功能

一个完整直播app实现流程

了解流媒体（直播需要用到流媒体）

直播基础知识介绍

采集视频、音频

视频处理（美颜，水印）

视频编码解码框架

视频编码技术

音频编码技术

码率控制

视频封装格式

推流

流媒体服务器

拉流

解码

播放

聊天互动

公告

直播App 架构和技术点