7. H.264的句法和语义
1.句法
在编码器输出的码流中,数据的基本单位是句法元素,每个句法元素由若干比特组成,它表示某个特定的物理意义,例如:宏块类型、量化参数等。 句法表征句法元素的组织结构,语义阐述句法元素的具体含义。 所有的视频编码标准都是通过定义句法和语义来规范编解码器的工作流程。
1.1.句法元素的分层结构
句法元素的分层结构有助于更有效地节省码流。例如,在一个图像中,经常会在各个片之间有相同的数据,如果每个片都同时携带这些数据,势必会造成码流的浪费。更为有效的做法是将该图像的公共信息抽取出来,形成图像一级的句法元素,而在片级只携带该片自身独有的句法元素。 在H.264 中,句法元素共被组织成 序列、图像、片、宏块、子宏块五个层次。
H.264 的分层结构是经过精心设计的,与以往的视频编码标准相比有很大的改进,这些改进主要针对传输中的错误掩藏,在有误码发生时可以提高图像重建的性能。在以往的标准中,分层的组织结构如下图所示 ,它们如同 TCP/IP 协议的结构,每一层都有头部,然后在每层的数据部分包含该层的数据。
1.2.句法的表示方法
图中, pic_width_in_mbs_minus1 是解码器直接从码流中提取的句法元素,这个句法元素表征图像的宽度,以宏块为单位。我们看到,为了提高编码效率, H.264 将图像实际的宽度减去 1 后再传送。
描述子都在括号中带有一个参数,这个参数表示需要提取的比特数。当参数是 n 时,表明调用这个描述子的时候会指明 n 的值,也即该句法元素是定长编码的。当参数是 v 时,对应的句法元素是变长编码,这时有两种情况: i(v) 和 u(v) 两个描述子的 v 由以前的句法元素指定,也就是说在前面会有句法元素指定当前句法元素的比特长度;除了这两个描述子外,其它描述子都是熵编码,它们的解码算法本身能够确定当前句法元素的比特长度。
2.语义
2.1.NAL层语义
- forbidden_zero_bit 等于 0
- nal_ref_idc 指示当前 NAL 的优先级。取值范围为 0-3, ,值越高,表示当前 NAL 越重要,需要优先受到保护。 H.264 规定如果当前 NAL 是属于参考帧的片,或是序列参数集,或是图像参数集这些重要的数据单位时,本句法元素必须大于 0。但在大于 0 时具体该取何值,却没有进一步规定,通信双方可以灵活地制定策略。
- nal_unit_type 指明当前 NAL unit 的类型,具体类型的定义如下表 。
- rbsp_byte[i] RBSP 的第 i 个字节。 RBSP 指原始字节载荷,它是 NAL 单元的数据部分的封装格式,封装的数据来自 SODB(原始数据比特流)。 SODB 是编码后的原始数据, SODB 经封装为 RBSP 后放入 NAL 的数据部分。下面介绍一个 RBSP 的生成顺序。
- emulation_prevention_three_byte NAL 内部为防止与起始码竞争而引入的填充字节 ,值为 0x03。
2.2.序列参数集语义
- profile_idc、 level_idc 指明所用 profile、 level。
- constraint_set0_flag 等于 1 时表示必须遵从附录 A.2.1 所指明的所有制约条件。等于 0 时表示不必遵从所有条件。
- constraint_set1_flag 等于 1 时表示必须遵从附录 A.2.2 所指明的所有制约条件。等于 0 时表示不必遵从所有条件。
- constraint_set2_flag 等于 1 时表示必须遵从附录 A.2.3 所指明的所有制约条件。等于 0 时表示不必遵从所有条件。
- reserved_zero_5bits 在目前的标准中本句法元素必须等于 0,其他的值保留做将来用,解码器应该忽略本句法元素的值。
- seq_parameter_set_id 指明本序列参数集的 id 号,这个 id 号将被 picture 参数集引用,本句法元素的值应该在[0, 31]。注意:当编码器需要产生新的序列参数集时,应该使用新的 seq_parameter_set_id,即使用新的序列参数集,而不是去改变原来的参数集中的内容
- log2_max_frame_num_minus4 这个句法元素主要是为读取另一个句法元素 frame_num 服务的,frame_num 是最重要的句法元素之一,它标识所属图像的解码顺序。可以在句法表看到, fram-num的解码函数是 ue(v),函数中的 v 在这里指定:
v = log2_max_frame_num_minus4 + 4
从另一个角度看,这个句法元素同时也指明了 frame_num 的所能达到的最大值:
MaxFrameNum = 2( log2_max_frame_num_minus4 + 4 )
- pic_order_cnt_type 指明了 poc (picture order count) 的编码方法, poc 标识图像的播放顺序。由于H.264 使用了 B 帧预测,使得图像的解码顺序并不一定等于播放顺序,但它们之间存在一定的映射关系。 poc 可以由 frame-num 通过映射关系计算得来,也可以索性由编码器显式地传送。 H.264 中一共定义了三种 poc 的编码方法,这个句法元素就是用来通知解码器该用哪种方法来计算 poc。 而以下的几个句法元素是分别在各种方法中用到的数据。
- log2_max_pic_order_cnt_lsb_minus4 指明了变量 MaxPicOrderCntLsb 的值
MaxPicOrderCntLsb = 2( log2_max_pic_order_cnt_lsb_minus4 + 4 )
- delta_pic_order_always_zero_flag 等于 1 时,句法元素 delta_pic_order_cnt[0]和 delta_pic_order_cnt[1]不在片头出现,并且它们的值默认为 0; 本句法元素等于 0 时,上述的两个句法元素将在片头出现。
- offset_for_non_ref_pic 被用来计算非参考帧或场的 picture order count
- offset_for_top_to_bottom_field 被用来计算帧的底场的 picture order count
- num_ref_frames_in_pic_order_cnt_cycle 被用来解码 picture order count
- offset_for_ref__frame[i] 在 picture order count type=1 时用,用于解码 POC,本句法元素对循环num_ref_frames_in_pic_order_cycle 中的每一个元素指定一个偏移。
- num_ref_frames 指定参考帧队列可能达到的最大长度,解码器依照这个句法元素的值开辟存储区,这个存储区用于存放已解码的参考帧, H.264 规定最多可用 16 个参考帧,本句法元素的值最大为 16。值得注意的是这个长度以帧为单位,如果在场模式下,应该相应地扩展一倍。
- gaps_in_frame_num_value_allowed_flag 这个句法元素等于 1 时,表示允许句法元素 frame_num 可以不连续。当传输信道堵塞严重时,编码器来不及将编码后的图像全部发出,这时允许丢弃若干帧图像。 在正常情况下每一帧图像都有依次连续的 frame_num 值,解码器检查到如果 frame_num 不连续,便能确定有图像被编码器丢弃。这时,解码器必须启动错误掩藏的机制来近似地恢复这些图像,因为这些图像有可能被后续图像用作参考帧。当这个句法元素等于 0 时,表不允许 frame_num 不连续,即编码器在任何情况下都不能丢弃图像。这时, H.264 允许解码器可以不去检查 frame_num 的连续性以减少计算量。这种情况下如果依然发生 frame_num 不连续,表示在传输中发生丢包,解码器会通过其他机制检测到丢包的发生,然后启动错误掩藏的恢复图像。
- pic_width_in_mbs_minus1 本句法元素加 1 后指明图像宽度,以宏块为单位:PicWidthInMbs = pic_width_in_mbs_minus1 + 1通过这个句法元素解码器可以计算得到亮度分量以像素为单位的图像宽度:PicWidthInSamplesL = PicWidthInMbs * 16从而也可以得到色度分量以像素为单位的图像宽度:PicWidthInSamplesC = PicWidthInMbs * 8以上变量 PicWidthInSamplesL、 PicWidthInSamplesC 分别表示图像的亮度、色度分量以像素为单位的宽。H.264 将图像的大小在序列参数集中定义,意味着可以在通信过程中随着序列参数集动态地改变图像的大小,在后文中可以看到,甚至可以将传送的图像剪裁后输出。
- frame_mbs_only_flag 本句法元素等于 0 时表示本序列中所有图像的编码模式都是帧,没有其他编码模式存在;本句法元素等于 1 时 ,表示本序列中图像的编码模式可能是帧,也可能是场或帧场自适应,某个图像具体是哪一种要由其他句法元素决定。结合 map_unit 的含义,这里给出上一个句法元素 pic_height_in_map_units_minus1 的进一步解析步骤:当 frame_mbs_only_flag 等于1, pic_height_in_map_units_minus1 指的是一个 picture 中帧的高度;当frame_mbs_only_flag 等于0, pic_heght_in_map_units_minus1 指的是一个 picture 中场的高度,所以可以得到如下以宏块为单位的图像高度:
FrameHeightInMbs = ( 2 – frame_mbs_only_flag ) * PicHeightInMapUnits PictureHeightInMbs= ( 2 – frame_mbs_only_flag ) * PicHeightInMapUnits
- mb_adaptive_frame_field_flag 指明本序列是否属于帧场自适应模式。 mb_adaptive_frame_field_flag等于1时表明在本序列中的图像如果不是场模式就是帧场自适应模式,等于0时表示本序列中的图像如果不是场模式就是帧模式。。表 列举了一个序列中可能出现的编码模式:a. 全部是帧,对应于 frame_mbs_only_flag =1 的情况。b. 帧和场共存。 frame_mbs_only_flag =0, mb_adaptive_frame_field_flag =0c. 帧场自适应和场共存。 frame_mbs_only_flag =0, mb_adaptive_frame_field_flag =1值得注意的是,帧和帧场自适应不能共存在一个序列中
- direct_8x8_inference_flag 用于指明 B 片的直接和 skip 模式下运动矢量的预测方法。
- frame_cropping_flag 用于指明解码器是否要将图像裁剪后输出,如果是的话,后面紧跟着的四个句法元素分别指出左右、上下裁剪的宽度。
- frame_crop_left_offset,frame_crop_right_offset,frame_crop_bottom_offset,frame_crop_bottom_offset 如上一句法元素所述。
- vui_parameters_present_flag 指明 vui 子结构是否出现在码流中, vui 的码流结构在附录中指明,用以表征视频格式等额外信息。
2.3.图像参数集语义
- pic_parameter_set_id 用以指定本参数集的序号,该序号在各片的片头被引用。
- seq_parameter_set_id 指明本图像参数集所引用的序列参数集的序号。
- entropy_coding_mode_flag 指明熵编码的选择,本句法元素为0时,表示熵编码使用 CAVLC,本句法元素为1时表示熵编码使用 CABAC
- pic_order_present_flag POC 的三种计算方法在片层还各需要用一些句法元素作为参数,本句法元素等于1时表示在片头会有句法元素指明这些参数;本句法元素等于0时,表示片头不会给出这些参数,这些参数使用默认值。
- num_slice_groups_minus1 本句法元素加1后指明图像中片组的个数。H.264 中没有专门的句法元素用于指明是否使用片组模式,当本句法元素等于0(即只有一个片组),表示不使用片组模式,后面也不会跟有用于计算片组映射的句法元素。
- slice_group_map_type 当 num_slice_group_minus1 大于0,既使用片组模式时,本句法元素出现在码流中,用以指明片组分割类型。
- run_length_minus1[i] 用以指明当片组类型等于0时,每个片组连续的 map_units 个数。
- top_left[i],bottom_right[i] 用以指明当片组类型等于2时,矩形区域的左上及右下位置。
- slice_group_change_direction_flag 当片组类型等于3、4、5时,本句法元素与下一个句法元素一起指明确切的片组分割方法。
- slice_group_change_rate_minus1 用以指明变量 SliceGroupChangeRAte
- pic_size_in_map_units_minus1 在片组类型等于6时,用以指明图像以 map_units 为单位的大小。
- slice_group_id[i] 在片组类型等于6时,用以指明某个 map_units 属于哪个片组。
- num_ref_idx_l0_active_minus1 加1后指明目前参考帧队列的长度,即有多少个参考帧
- num_ref_idx_l1_active_minus1 与上一个句法元素的语义一致,只是本句法元素用于 list1,而上一句法元素用于 list0
- weighted_pred_flag 用以指明是否允许P和SP片的加权预测,如果允许,在片头会出现用以计算加权预测的句法元素。
- weighted_bipred_flag 用以指明是否允许 B 片的加权预测,本句法元素等于 0 时表示使用默认加权预测模式,等于 1 时表示使用显式加权预测模式,等于 2 时表示使用隐式加权预测模式。
- pic_init_qp_minus26 加 26 后用以指明亮度分量的量化参数的初始值。在 H.264 中,量化参数分三个级别给出:图像参数集、片头、宏块。在图像参数集给出的是一个初始值。
- pic_init_qs_minus26 与上一个句法元素语义一致,只是用于 SP 和 SI
- chroma_qp_index_offset 色度分量的量化参数是根据亮度分量的量化参数计算出来的,本句法元素用以指明计算时用到的参数。
- deblocking_filter_control_present_flag 编码器可以通过句法元素显式地控制去块滤波的强度,本句法元素指明是在片头是否会有句法元素传递这个控制信息。如果本句法元素等于 0,那些用于传递滤波强度的句法元素不会出现,解码器将独立地计算出滤波强度。
- constrained_intra_pred_flag 在 P 和 B 片中,帧内编码的宏块的邻近宏块可能是采用的帧间编码。当本句法元素等于 1 时,表示帧内编码的宏块不能用帧间编码的宏块的像素作为自己的预测,即帧内编码的宏块只能用邻近帧内编码的宏块的像素作为自己的预测;而本句法元素等于 0 时,表示不存在这种限制。
- redundant_pic_cnt_present_flag指明是否会出现 redundant_pic_cnt 句法元素。