JPEG—范式哈夫曼编码(Canonical Huffman Code)
在大部分介绍JPEG的中文书中都是将全部的JPEG的霍夫曼表给出,可是实际的JPEG文件头并不长,这个使得初看者很迷惑,这么短是如何存储那么长的霍夫曼表。其实,JPEG的霍夫曼表是由一定规则生成,只要给出少量的描述即可生成相应的JPEG的霍夫曼表。 在baseline的JPEG系统中采用Canonical Huffman Code(范式哈夫曼编码),而在扩展系统中采用算术编码。 首先介绍一下DC可变长度代码(VLI)编码,AC系数行程长度编码(RLE),首先要采用Zigzeg扫描,形成一维系数。扫描次序如下图所示:
(1)DC系数编码 对差分DC系数用两个符号进行编码。第1个符号表示“长度”,即为DC幅度进行编码需要的位数,符号2表示DC系数的幅度。 例如DC系数为20,那么经过VLI编码变成(5,20)。这个将用于下一步的Huffman编码。 (2)AC系数编码 类似地,对每个AC系数也采用两个符号进行编码,符号1和符号2.符号1表示了两条信息,分别称为“行程”和“长度”。行程是在之字形矩阵中位于非零Ac系数前的连续零值Ac系数的个数,长度是对Ac系数的幅度进行编码所用的位数。符号2表示了Ac系数的幅度。 例如一个块经过Zigzeg扫描得到AC系数如下: 1 0 -1 0 0 0 0 5 0 10,那么编码如下:(0/1,1),(1/1,-1),(3/3,5),(1/4,10),注意符号2表示负数用的是反码,也就是说如果-1,因为1的反码是0,所以-1的符号2为0。另外,如果一个块剩下的所有系数都是0,那么编码到最后一个非零系数,然后用EOB标识符标志块结束。在编码的过程中,如果连续0的个数超过15个,那么用(F/0)即ZRL符号来表示。如果在编码的过程中,形成0xFF的码,那么在0xFF后面添加00. 在编码的过程中,DC的符号1和AC的符号1采用的是Huffman编码。 (3)范式哈夫曼编码 1)生成规则 范式哈夫曼编码的规则是:长度为i的码字的前j位的数值大于长度为j的码字的数值,其中i>j。根据这个规则,huffman表只需要给出码长中码字的个数即可,以及相应代表的符号。下图是一个DC的Huffman表
FFC4:标志Huffman表开始。 001F:表示Huffman的长度。 00:表示这个是DC表的第0个表。 00:表示长度为1的码个数为0. 01:表示长度为2的码个数为1. 05:表示长度为3的码个数为5. …… |
生成规则是:同长度的码递增,如果长度变长1,那么将该次的码加1,然后左移一位。例如,长度为3的码有5个,其中第一个是010,那么递增依次是011 100 101 110,这时候长度为3的码结束,要进行长度为4的码,将110+1 = 111右移一位变成1110,这个就是4位码的第一个了。
2)解码过程
利用上述的编码规则,可以得到解码过程的伪代码如下:
逐位读入码流,然后判断是否小于该长度的范式Huffman编码,如果小于则得出编码长度,就可以得到Huffman编码,否则继续读入下一位,然后继续上述判断。
extren KBitInputStream bs;
int len = 1;
int code = bs.ReadBit();
while(code>=first[len])
{
code<<=1;
code& = (bs.ReadBit());//读取下一个bit
len++;
}
len--;//至此,识别出了一个前缀码,下面将code解码为其对应的符号sym
int index = index[len]+(code-first[len]);
int sym = table[index];
first[i]表示长度为i的第一个Huffman编码的整数值
例如在上述的DC表中,first数组取值为{00, 100,1110,11110,1111110,1111110}
假设一个码流为1011101110,解码过程如下:
读入10>first[1],继续读入101>first[2],继续读入1011<1110,说明该码的长度为3,同时可以求出偏移量101-100=1,查表可以得到表示的符号是4。