霍夫曼编码
霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就称Huffman编码。
霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相加时都将“0”和“1”赋与相加的两个概率,读出时由该符号开始一直走到最后的“1”, 将路线上所遇到的“0”和“1”按最低位到最高位的顺序排好,就是该符号的霍夫曼编码。
这种编码和定长编码相比将出现概率较大的符号使用较少的码字表示,节省空间。在实现上我们一般将Huffman编码表示为一棵二叉树,其中的叶子表示被编码的符号,树中每个非叶节点代表一个集合,其中包含这一节点之下的所有树叶上的符号,除此之外,树叶的每个符号还被赋予一个概率,非叶节点的概率为位于它之下的所有叶节点的权重之和。
要找到一个符号的Huffman编码,从树根向下运动,在每个节点处判断符号是在节点的左子树还是右子树,在左子树则给编码加上一个0,在右子树则给编码加上一个1,直到找到符号为止。
解码的过程和编码的过程刚好相反,是从一段由0和1构成的位序列开始。从树根开始,通过位序列中的0或1确定是移向左子树还是右子树,每当到达一个叶子,则解码出来一个符号,然后重新开始从树根出发确定下一个符号,直到解码完所有的位序列。
霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相加时都将“0”和“1”赋与相加的两个概率,读出时由该符号开始一直走到最后的“1”, 将路线上所遇到的“0”和“1”按最低位到最高位的顺序排好,就是该符号的霍夫曼编码。
这种编码和定长编码相比将出现概率较大的符号使用较少的码字表示,节省空间。在实现上我们一般将Huffman编码表示为一棵二叉树,其中的叶子表示被编码的符号,树中每个非叶节点代表一个集合,其中包含这一节点之下的所有树叶上的符号,除此之外,树叶的每个符号还被赋予一个概率,非叶节点的概率为位于它之下的所有叶节点的权重之和。
要找到一个符号的Huffman编码,从树根向下运动,在每个节点处判断符号是在节点的左子树还是右子树,在左子树则给编码加上一个0,在右子树则给编码加上一个1,直到找到符号为止。
解码的过程和编码的过程刚好相反,是从一段由0和1构成的位序列开始。从树根开始,通过位序列中的0或1确定是移向左子树还是右子树,每当到达一个叶子,则解码出来一个符号,然后重新开始从树根出发确定下一个符号,直到解码完所有的位序列。