x264 帧内预测

帧内预测的函数调用

如下图所示：

I帧的分割类型：

其中的I_PCM，编码器会直接传输原本的图像数据，不经过残差、变换和压缩，也不会经过CABAC/CAVLC的编码，在这种模式下，占据的bits=256 * 8(即每个像素8bits，一共16 * 16 = 256个像素)。

I帧的预测模型pred mode

pred mode具体实现：

这里只列出了I_4x4的实现，关于I_8x8和I_16x16其实是一样的逻辑，只是I_8x8和I_16x16的数据量更大而已，同样的，chroma类型也是一样的。

这里面没有 * _P 类型，即Plane预测，意思是利用边缘数据，按照平面方程来进行差值运算。Plane预测的计算量会比其他预测类型高很多。

采用上面提到的分割类型（I_16x16, I_8x8, I_4x4）和预测模型pred mode来对每一个MB进行试探，搜索并找出最优的分割类型和预测模型pred mode
编码：预测数据---> 原始数据fenc减去预测数据，得到残差数据-->DCT变换--quant量化--zigzag扫描 ---> CAVLC/CABAC编码

帧内预测的逻辑并不复杂，只是试探一遍所有的pred mode和分割类型，然后找出最优的结果，在这里就没有什么多余的赘述。

但对于代码的细致内容：

关于x264_mb_analysis_t这个数据结构，其实不用去细致理解里面的变量，因为没意义。这个数据结构干得事情，就是充当了一个“临时变量”。它负责记录每一种预测结果，以方便后面要用到这些结果的时候能方便拿到。（因为你总不想弄一堆全局变量来记录那些中间结果吧？那样太乱了，而且在预测计算的时候需要记录的太多了）。它所记录的数据，大部分只是结果，不会对算法逻辑有什么影响。

关于编码数据的存放：在得到每一种分割类型和预测模型之后，后续的编码处理，涉及到的数据结构如下。（预测类型，DCT变换之后的数据都放在哪里……）

细心的人肯定发现了一些小问题：

为什么I_16x16在编码的时候，会单独把DC系数拎出来，放入luma16x16_dc，再对DC系数进行单独的编码？

这个问题很有意思，因为这涉及到下层编码算法的结构。在CAVLC编码中有一个有趣的假设，即zigzag扫描的数据符合由大到小的排序。而CAVLC的优化策略，也都是基于这个假设来进行的。不仅如此，CAVLC在处理数据的时候，采用了一个变量i_suffix_length来进一步预测数据间的大小关系。即：i_suffix_length在数据满足“由大到小，且数据间的差值均匀分部”这个条件的时候，能达到最大的优化效果。

了解了CAVLC的优化策略，就很容易弄明白了：因为DC系数像是脱缰的野马一般不受控制，所以才把DC系数全都拿出来，单独放在一起，再经过一次DCT变换，然后编码。如此才能达到最佳的压缩效果。

既然把DC系数单独拿出来有这么多好处，为什么I_8x8和I_4x4不这么做？
- 让我们先回答I_4x4为什么不这么做：在I_4x4中，每个4x4的子块都有自己独立的pred mode，故而每个子块的DC系数之间差异很大！请回想一下，为什么我们要先进行DCT变换再编码？是因为在任何情况下DCT变换都能达到理想的效果？答案并不是这样，DCT变换能带来的压缩性能提升，也是有一个假设的：“图像是均匀变化的，不可以完全没有规律可言”。而I_4x4模式下，把各个模块之间的DC系数搞成了完全没有规律可言，就算你把DC系数全集中在一起，也没办法享受到DCT-->zigzag--->编码带来的压缩效率。
- 关于I_8x8，将子块的大小设定成8x8，每个8x8子块内部是高度关联的，那么为什么这里又不把子块间的DC系数提取出来？其实x264已经考虑了这件事了，但单独提取8x8子块的数据太繁，所以直接把DCT变换的规模从DCT4x4变成了DCT8x8，相当于把8x8这个子块看成一个整体，统一处理，也就没必要再单独处理DC系数了。

posted @ 2021-07-30 17:08 十方云山阅读(1012) 评论(0) 收藏举报

刷新页面返回顶部