[知识点] 7.5 Huffman哈夫曼树
总目录 > 7 数据结构 > 7.5 Huffman 哈夫曼树
前言
这是一篇原网站没有涉及到的知识点,很久之前也学过了,趁着数据结构课要做实验就再复习下好啦。
子目录列表
1、最优二叉树
2、构造方法
3、哈夫曼编码
4、译码
5、代码
7.5 Huffman 哈夫曼树
1、最优二叉树
哈夫曼树(Huffman Tree),又名最优树,是一类带权路径长度最短的树,应用比较广泛。这里我们暂时只讨论最优二叉树。
先给出几个概念:
路径:从树中一个结点到另一个结点之间的分支构成两个结点之间的路径;
路径长度:路径上的分支数目;
树的路径长度:从根结点到每一个结点的路径长度之和。
哈夫曼树的特点在于,有且仅有叶子结点带权,比如:
带权路径长度:根结点到该结点的路径长度与结点权值的乘积;
树的带权路径长度:树中所有叶子结点的带权路径长度之和,通常记作:
WPL = ∑ w[k] * l[k]
其中,k ∈ [1, n],n 表示结点个数,w[k] 表示结点 k 的权值,l[k] 表示结点 k 到根结点的路径长度。
扯了这么多,回到最开始的定义:哈夫曼树是带权路径长度最短的树,即给出若干个结点构造一棵树,当且仅当其 WPL 是所有构造方式中最小的,就是哈夫曼树,例如上图的 4 个字符 {a, b, c, d},其三种构造方式:
图 a 对应:WPL = 7 * 2 + 5 * 2 + 2 * 2 + 4 * 2 = 36
图 b 对应:WPL = 7 * 3 + 5 * 3 + 2 * 1 + 4 * 2 = 46
图 c 对应:WPL = 7 * 1 + 5 * 2 + 2 * 3 + 4 * 3 = 35
我们发现,图 c 所表示的树正是哈夫曼树。
2、构造方法
给出 n 个带权结点,第 i 个结点权值为 w[i]。
① 将 n 个结点视作 n 棵二叉树,有且仅有一个根结点,根结点权值为 w[i],全部放入二叉树集合 T;
② 构造一棵新二叉树。从 T 中选择两棵根结点最小的树,分别作为这棵新二叉树的左右子树;
③ 将新二叉树加入集合 T,将被选择的两棵原二叉树移除;
④ 反复执行 ② 和 ③,直到 T 中只有一棵树。此时,这棵树即为哈夫曼树。
3、哈夫曼编码
说了这么多,还没有看出哈夫曼树的意义在哪?
数字国和字母国因为争论谁是世界霸主而掀起一场旷世大战。数字国在字母国安插了许多间谍,有一天一个间谍截获了一份字母国写满了字母的机密文件,想要通过用电文传回给数字国,但担心被字母国发现,于是决定将字母全部转化为 0 和 1 两个数字,现在他需要考虑一个最合适的转换方案,使其发送的电文尽可能短。
我们假设这份机密文件只有 "abaccda" 这 4 种字符,7 个字母。最朴素的编码方案为:
a - 00, b - 01, c - 10, d - 11,则电文为:00010010101100,共 14 位,对方接收后,直接将其两位两位断开,即可获得原文。
但是否存在更优解?我们这样编码:
a - 0, b - 1, c - 10, d - 11,则电文为:0101010110,共 10 位,确实短了,却出现了一个致命的问题:由于编码方案不等长,对方并不能直接等长隔断;同时,a 的编码是 c, d 的前缀,字母之间存在歧义,比如如何告知对方,10 到底表示的是 c 还是 ba?所以,我们需要保证任何一个字符的编码都不是另一个编码的前缀,这种编码称作前缀编码。再来一次:
a - 0, b - 10, c - 110, d - 111,则电文为:0100110110111,共 13 位,没有任何理解问题,但是,这仍然并非最优解。
我们发现,在短短 7 个字母中,a 出现了 3 次,c 出现了 2 次,而 b, d 只有 1 次;我们如果希望总长度尽可能短,那么就应该使出现频率较高的采用较短的编码,频率较低的采用较长的编码,比如:
a - 0, b - 110, c - 10, d - 111,则电文为:011001010111,共 12 位,为最优解,即哈夫曼编码。
那么如何得到这样的哈夫曼编码?
假设现在有 n 个字符,第 i 个字符出现的频数为 w[i],将其作为字符的权值,再直接套用上面的哈夫曼树构建方式就行,因为哈夫曼树的构建过程,本质就是使权值较大的结点极可能离根结点近,构建完后只需要对每一个结点连接左右子树的两条边分别标上 0, 1,就能很轻松地得到每一个字符的哈夫曼编码了,比如:
和上述推断出的哈夫曼编码一致。
因为所有字符之间不存在直接的祖先关系,所以不存在一个字符的编码是另一个字符编码的前缀的情况。
4、译码
数字国高层收到了间谍发来的情报,是一串数字加一棵树。可惜数字国高层都是丈育,他们不知道该怎么处理这个数字电文。
还是上面的例子,电文为:011001010111。从第1位开始,根据编码是0还是1在树上进行搜索,如果是0则向左子树搜索,反之向右子树搜索,直到找到了叶子结点,即译得了一个字符,并退出本次查找;以此反复,直到遍历完成,即完成对该哈夫曼编码的译码过程。
5、代码
直接把实验报告里这个带注释的复制过来辣。
注意,这个代码仅适用于小写字母的编码,要更广的适用性还需进行修改。
1 #include <bits/stdc++.h> 2 using namespace std; 3 4 #define MAXN 55 5 6 class Tree { 7 public: 8 int root, ls, rs, w; // 分别表示子树根结点序号,左儿子结点,右儿子结点,根结点权值 9 Tree(int _root, int _ls, int _rs, int _w): 10 root(_root), ls(_ls), rs(_rs), w(_w) {} 11 Tree(): root(0), ls(0), rs(0), w(0) {} 12 void init(int); 13 friend bool operator < (Tree a, Tree b) { 14 return a.w > b.w; 15 } 16 } t[MAXN]; 17 18 int n, tmp[MAXN]; 19 int* code[MAXN]; 20 char ch[10005]; 21 priority_queue <Tree> Q; // 优先队列,用于每次找出根结点权值最小的两棵子树 22 23 void Tree :: init(int o) { // 初始化结点,将结点放入优先队列 24 cin >> w, root = o; 25 Q.push(t[o]); 26 } 27 28 void coding() { // 哈夫曼编码函数 29 for (int i = 1; i < n; i++) { 30 Tree t1 = Q.top(); Q.pop(); 31 Tree t2 = Q.top(); Q.pop(); // t1, t2分别是根结点权值最小的两棵子树,从优先队列中弹出 32 t[i + n] = (Tree) {n + i, t1.root, t2.root, t1.w + t2.w}; 33 Q.push(t[i + n]); // 将合并的新二叉树加入优先队列 34 } 35 } 36 37 void dfs(int o, int d) { // 树的遍历函数 38 if (o <= n) { // 如果是叶子结点 39 code[o] = (int*) malloc((d + 1) * sizeof(int)); // 动态分配数组内存 40 for (int i = 1; i < d; i++) 41 code[o][i] = tmp[i]; // 将存储在tmp中的01序列复制到字符o的哈夫曼编码数组 42 code[o][d] = 2; // 结束标志,用于输出编码 43 return; 44 } 45 tmp[d] = 0, dfs(t[o].ls, d + 1); 46 tmp[d] = 1, dfs(t[o].rs, d + 1); 47 } 48 49 void getCode() { // 输出编码函数 50 dfs(2 * n - 1, 1); // 从根结点开始遍历 51 for (int i = 1; i <= n; i++) { 52 int o = 1; 53 cout << (char)(i + 'a' - 1) << ' '; 54 while (code[i][o] != 2) cout << code[i][o], o++; // 输出编码,直到出现结束标志 55 cout << endl; 56 } 57 } 58 59 void translate() { // 译码函数 60 while (1) { 61 cin >> ch; 62 int l = strlen(ch), o = 2 * n - 1; 63 for (int i = 0; i < l; i++) { 64 if (ch[i] == '0') o = t[o].ls; // 如果是0,向左儿子搜索 65 else o = t[o].rs; // 反之向右儿子搜索 66 if (o <= n) { // 如果是叶子结点 67 cout << (char)(o + 'a' - 1); 68 o = 2 * n - 1; // 重新从根结点开始搜索 69 } 70 } 71 } 72 } 73 74 int main() { 75 cin >> n; 76 for (int i = 1; i <= n; i++) t[i].init(i); 77 coding(); 78 getCode(); 79 translate(); 80 return 0; 81 }