基础流媒体协议
一,基本概念
流媒体(streaming media)是指将一连串的媒体数据压缩后,经过网上分段发送数据,在网上即时传输影音以供观赏的一种技术与过程,此技术使得数据包得以像流水一样发送;如果不使用此技术,就必须在使用前下载整个媒体文件。流式传输可传送现场影音或预存于服务器上的影片,当观看者在收看这些影音文件时,影音数据在送达观看者的计算机后立即由特定播放软件播放。
流媒体实际指的是一种新的媒体传送方式,有声音流、视频流、文本流、图像流、动画流等,而非一种新的媒体。
流媒体最主要的技术特征就是流式传输,它使得数据可以像流水一样传输。流式传输是指通过网络传送媒体(音频、视频等)技术的总称。
实现流式传输主要有两种方式:顺序流式传输( progressive streaming)和实时流式传输( real time streaming)。采用哪种方式依赖于具体需求。
1、顺序流式传输
顺序流式传输是顺序下载,用户在观看在线媒体的同时下载文件,在这一过程中,用户只能观看下载完的部分,而不能直接观看未下载部分。
也就是说,用户总是在一段延时后才能看到服务器传送过来的信息。由于标准的HTTP服务器就可以发送这种形式的文件,它经常被称为HTTP流式传输。
由于顺序流式传输能够较好地保证节目播放的质量,因此比较适合在网站上发布的、可供用户点播的、高质量的视频。
顺序流式文件是放在标准HTTP或FTP服务器上,易于管理,基本上与防火墙无关。顺序流式传输不适合长片段和有随机访问要求的视频,如:讲座、演说与演示。它也不支持现场广播。
2、实时流式传输
实时流式传输必须保证匹配连接带宽,使媒体可以被实时观看到。在观看过程中用户可以任意观看媒体前面或后面的内容,
但在这种传输方式中,如果网络传输状况不理想,则收到的图像质量就会比较差实时流式传输需要特定服务器,如 Quick Time Streaming Server、 Realserver或 Windows Media server。
这些服务器允许对媒体发送进行更多级别的控制,因而系统设置、管理比标准HTTP服务器更复杂。实时流式传输还需要特殊网络协议,如:RTSP( realtime streaming protocol)、RTMP(Real Time Messaging Protocol)等等。
在有防火墙时,有时会对这些协议进行屏闭,导致用户不能看到一些地点的实时内容,实时流式传输总是实时传送,因此特别适合现场事件。
二,RTMP协议
(一)RTMP创建流的基本流程
RTMP协议是应用层协议,是要靠底层可靠的传输层协议(通常是TCP)来保证信息传输的可靠性的。
在基于传输层协议的连接建立完成后,RTMP协议也要客户端和服务器通过“握手”来建立基于传输层链接之上的RTMP Connection链接,
在Connection链接上会传输一些控制信息,如SetChunkSize,SetACKWindowSize。
其中CreateStream命令会创建一个Stream链接,用于传输具体的音视频数据和控制这些信息传输的命令信息。
RTMP协议传输时会对数据做自己的格式化,这种格式的消息我们称之为RTMP Message,
而实际传输的时候为了更好地实现多路复用、分包和信息的公平性,发送端会把Message划分为带有Message ID的Chunk,
每个Chunk可能是一个单独的Message,也可能是Message的一部分,
在接受端会根据chunk中包含的data的长度,message id和message的长度把chunk还原成完整的Message,从而实现信息的收发。
(二)RTMP协议的握手
要建立一个有效的RTMP Connection链接,首先要“握手”:
客户端要向服务器发送C0,C1,C2(按序)三个chunk,
服务器向客户端发送S0,S1,S2(按序)三个chunk,然后才能进行有效的信息传输。
RTMP协议本身并没有规定这6个Message的具体传输顺序,但RTMP协议的实现者需要保证这几点:
客户端要等收到S1之后才能发送C2 客户端要等收到S2之后才能发送其他信息(控制信息和真实音视频等数据) 服务端要等到收到C0之后发送S1 服务端必须等到收到C1之后才能发送S2 服务端必须等到收到C2之后才能发送其他信息(控制信息和真实音视频等数据)
实际实现中为了在保证握手的身份验证功能的基础上尽量减少通信的次数,一般的发送顺序是如上图中的“RTMP真实的握手”,这一点可以通过wireshark抓ffmpeg推流包进行验证!
(三)建立RTMP连接
1、客户端发送命令“connect”给服务器 2、服务器接收到“connect”命令之后,发送消息“确认窗口大小(Window Acknowledgement Size)”给客户端,同时连接到“connect”命令中提到的应用程序 3、服务器发送消息“设置带宽”给客户端 4、客户端接收到消息“设置带宽”之后,发送消息“确认窗口大小”给服务器 5、服务器发送消息“流开始”给客户端 6、服务器发送消息“结果”给客户端,通知客户端连接的状态
(四)RTMP流中的创建
1、客户端发送命令“创建流”给服务器 2、服务器接收到命令之后,发送“结果”给客户端。
在实际中,在创建之前,如果存在该流,那么服务端需要进行释放。然后接着客户端会发送FCPublishStream消息给服务端。
(五)推RTMP流
1.客户端发送publish命令给服务端 2.服务端回复响应消息给客户端 3.客户端发送metaData数据(后面要发送的音、视频基本信息,如分辨率、帧率、采样率...)给服务端 4.客户端发送音视频数据给服务端
其中服务端可以根据元信息,对音视频数据进行编解码,或者直接转发给订阅者。
(六)拉RTMP流
1、客户端发送命令“播放”给服务器 2、服务器接收到命令之后,发送消息“设置块大小”给客户端 3、服务器发送“stream begin”给客户端,告诉客户端 流的id 4、播放命令成功的话,服务器发送“响应状态”给客户端,告诉客户端播放成功 5、服务器发送音视频数据给客户端
(七)RTMP消息格式
Chunk Stream是对传输RTMP Chunk的流的逻辑上的抽象,客户端和服务器之间有关RTMP的信息都在这个流上通信。这个流上的操作也是我们关注RTMP协议的重点。
1.Message消息
这里的Message是指满足该协议格式的、可以切分成Chunk发送的消息,消息包含的字段如下:
- Timestamp(时间戳):消息的时间戳(但不一定是当前时间,后面会介绍),3个字节
- Length(长度):是指Message Payload(消息负载)即音视频等信息的数据的长度,3个字节
- TypeId(类型Id):消息的类型Id,1个字节
- Message Stream ID(消息的流ID):每个消息的唯一标识,划分成Chunk和还原Chunk为Message的时候都是根据这个ID来辨识是否是同一个消息的Chunk的,4个字节,并且以小端格式存储
2.Chunking(Message分块)
RTMP在收发数据的时候并不是以Message为单位的,而是把Message拆分成Chunk发送,而且必须在一个Chunk发送完成之后才能开始发送下一个Chunk。
每个Chunk中带有MessageID代表属于哪个Message,接受端也会按照这个id来将chunk组装成Message。
为什么RTMP要将Message拆分成不同的Chunk呢?
通过拆分,数据量较大的Message可以被拆分成较小的“Message”,这样就可以避免优先级低的消息持续发送阻塞优先级高的数据,
比如在视频的传输过程中,会包括视频帧,音频帧和RTMP控制信息,如果持续发送音频数据或者控制数据的话可能就会造成视频帧的阻塞,然后就会造成看视频时最烦人的卡顿现象。
同时对于数据量较小的Message,可以通过对Chunk Header的字段来压缩信息,从而减少信息的传输量。
Chunk的默认大小是128字节,在传输过程中,通过一个叫做Set Chunk Size的控制信息可以设置Chunk数据量的最大值,
在发送端和接受端会各自维护一个Chunk Size,可以分别设置这个值来改变自己这一方发送的Chunk的最大大小。
大一点的Chunk减少了计算每个chunk的时间从而减少了CPU的占用率,但是它会占用更多的时间在发送上,尤其是在低带宽的网络情况下,很可能会阻塞后面更重要信息的传输。
小一点的Chunk可以减少这种阻塞问题,但小的Chunk会引入过多额外的信息(Chunk中的Header),少量多次的传输也可能会造成发送的间断导致不能充分利用高带宽的优势,因此并不适合在高比特率的流中传输。
在实际发送时应对要发送的数据用不同的Chunk Size去尝试,通过抓包分析等手段得出合适的Chunk大小,并且在传输过程中可以根据当前的带宽信息和实际信息的大小动态调整Chunk的大小,从而尽量提高CPU的利用率并减少信息的阻塞机率。
3.Basic Header(基本的头信息)
Baisc header 是1-3个字节,第一个字节的高2位表示包头的格式,低6位表示chunk stream ID
1.fmt取值决定了整个包头header的长度(以下表现的长度均不包含Basic header的长度)
两位的fmt取值为 0~3,分别代表的意义如下: case 0:chunk Msg Header长度为11; case 1:chunk Msg Header长度为7; case 2:chunk Msg Header长度为3; case 3:chunk Msg Header长度为0;
我们以11个字节的完整包头来解释Chunk Msg Header,如图所示
长度是7 bytes 的chunk head,该类型不包含stream ID,该chunk的streamID和前一个chunk的stream ID是相同的,变长的消息,例如视频流格式,在第一个新的chunk以后使用这种类型,注意其中时间戳部分是相对时间,为何上一个绝对时间之间的差值 如图所示:
3 bytes的chunk head,该类型既不包含stream ID 也不包含消息长度,这种类型用于stream ID和前一个chunk相同,且有固定长度的信息,例如音频流格式,在第一个新的chunk以后使用该类型。如图所示:
0 bytes的chunk head,这种类型的chunk从前一个chunk得到值信息,当一个单个消息拆成多个chunk时,这些chunk除了第一个以外,其他的都应该使用这种类型,
2.chunk stream ID决定了Basic header的字节数,首先查看低六位的取值(chunk type):
包含了chunk stream ID(流通道Id)和chunk type(chunk的类型),chunk stream id一般被简写为CSID,用来唯一标识一个特定的流通道。
chunk type决定了Baic Header的长度。Basic Header的长度可能是1,2,或3个字节,其中chunk type的长度是固定的(占低6位,注意单位是位,bit),Basic Header的长度取决于CSID的大小,在足够存储这两个字段的前提下最好用尽量少的字节从而减少由于引入Header增加的数据量。
对于chunk type来说:(后6位)
- (后6位==0)为两个字节,chunk stream id = 64 + 第二个字节值 (64-319)
- (后6位==1)为三个字节,chunk stream id = 第三字节*256 + 第二字节 + 64(64–65599)
- (1<后6位<=64)为一个字节,后6bits表示块流ID
RTMP协议支持用户自定义[3,65599]之间的CSID,对于CSID中0,1,2由协议保留表示特殊信息。
-
当Basic Header为1个字节时,CSID占6位,6位最多可以表示64个数,因此这种情况下CSID在[0,63]之间,其中用户可自定义的范围为[3,63]。chunk type的长度固定为2位,因此CSID的长度是(6=8-2)、(14=16-2)、(22=24-2)中的一个。
- 当Basic Header为2个字节时,CSID占14位,此时协议将与chunk type所在字节的其他位都置为0,剩下的一个字节来表示CSID-64,这样共有8个二进制位来存储CSID,8位可以表示[0,255]共256个数,因此这种情况下CSID在[64,319],其中319=255+64。
- 当Basic Header为3个字节时,CSID占22位,此时协议将[2,8]字节置为1,余下的16个字节表示CSID-64,这样共有16个位来存储CSID,16位可以表示[0,65535]共65536个数,因此这种情况下CSID在[64,65599],其中65599=65535+64,需要注意的是,Basic Header是采用小端存储的方式,越往后的字节数量级越高,因此通过这3个字节每一位的值来计算CSID时,应该是:<第三个字节的值>x256+<第二个字节的值>+64
4.Message Header(消息的头信息)
Type=0:
- timestamp(时间戳):占用3个字节,因此它最多能表示到16777215=0xFFFFFF=2
24-1, 当它的值超过这个最大值时,这三个字节都置为1,这样实际的timestamp会转存到Extended Timestamp字段中,接受端在判断timestamp字段24个位都为1时就会去Extended timestamp中解析实际的时间戳。 - message length(消息数据的长度):占用3个字节,表示实际发送的消息的数据如音频帧、视频帧等数据的长度,单位是字节。注意这里是Message的长度,也就是chunk属于的Message的总数据长度,而不是chunk本身Data的数据的长度。
- message type id(消息的类型id):占用1个字节,表示实际发送的数据的类型,如8代表音频数据、9代表视频数据。
- msg stream id(消息的流id):占用4个字节,表示该chunk所在的流的ID,和Basic Header的CSID一样,它采用小端存储的方式,
Type=1:
- timestamp delta:占用3个字节,注意这里和type=0时不同,存储的是和上一个chunk的时间差。类似上面提到的timestamp,当它的值超过3个字节所能表示的最大值时,三个字节都置为1,实际的时间戳差值就会转存到Extended Timestamp字段中,接受端在判断timestamp delta字段24个位都为1时就会去Extended timestamp中解析时机的与上次时间戳的差值。
Type=2:
Type=3:
5.Extended Timestamp(扩展时间戳):
6.Chunk Data(块数据):
用户层面上真正想要发送的与协议无关的数据,长度在(0,chunkSize]之间。
(八)RTMP消息类型
以下为代表Set Chunk Size消息的chunk的Data:
2.Abort Message(Message Type ID=2):当一个Message被切分为多个chunk,接受端只接收到了部分chunk时,发送该控制消息表示发送端不再传输同Message的chunk,接受端接收到这个消息后要丢弃这些不完整的chunk。Data数据中只需要一个CSID,表示丢弃该CSID的所有已接收到的chunk。
4.Window Acknowledgement Size(Message Type ID=5):发送端在接收到接受端返回的两个ACK间最多可以发送的字节数。
- Hard(Limit Type=0):接受端应该将Window Ack Size设置为消息中的值
- Soft(Limit Type=1):接受端可以讲Window Ack Size设为消息中的值,也可以保存原来的值(前提是原来的Size小与该控制消息中的Window Ack Size)
- Dynamic(Limit Type=2):如果上次的Set Peer Bandwidth消息中的Limit Type为0,本次也按Hard处理,否则忽略本消息,不去设置Window Ack Size。
更多见:http://t.zoukankan.com/ssyfj-p-14684500.html
某大型企业流媒体组织方式 1.直播观看 rmtp协议推流 --> http-flv观看/rmtp观看(支持条件高,目前行业不采用)/hls观看(m3u8/ts文件格式) 2.点播观看 rmtp协议推流 --> 录制服务flv格式 --> transcoder-service 切片(将flv转成 10s一个的 ts文件 ) && transcoder-ts-service 转码服务(不同分辨率)再将ts文件转码指定的分辨率--> hls(m3u8/ts文件格式)观看