Huffman 树
命题描述
对于一个字符串,我们需要将它的每一个字符进行二进制编码(同一个字符可能会在字符串中出现多次。
我们规定:
- 1)相同的字符二进制编码相同。
- 2)且每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀(eg.假设a的编码为10,则其他字符的编码前2位一定不为10。
并找出最优的编码方式使整个字符串的二进制编码长度最短,求出这个最短长度。
eg.字符串:
AAAAABCD
其最优编码方式为:
A:1
B:01
C:000
D:001
故其原字符串的二进制编码为:
1111101000001
所以得出原字符串的二进制编码的最短长度为13。
显然,最优的编码方式不止一种。
正解思路
step1 贪心
首先,不难发现每个字符给总长度的贡献一定是:这个字符的编码长度 * 这个字符的出现次数。
因为我们的目的是让总长度尽可能的小,所以我们需要让每个字符的贡献尽可能的小。
又因为每个字符的出现次数在输出时就已经确定了,所以我们只需要让出现次数多的字符的编码长度尽可能小即可。
step2 二叉树
接下来我们尝试满足条件:每一个字符的二进制编码不是其他的任意一个字符的二进制编码的前缀
首先,如果定义一棵二叉树,这棵树的左节点为1,右节点为0,根为0
你会发现它所有的叶节点到根的经过的边上的权值构成的二进制编码一定不会是之前任意一个字符的前缀。如下图:
step3 结合
把1,,2综合来看,不就是把出现次数越多的放在深度越浅的点嘛,即上图中的(6)。
那么反之,就是把出现次数小的放在深度越深的点,如(4)(5)。
那我们能不能看成,每次找出出现次数最少的两个。然后把他们指向同一个父亲结点,然后把它们的父亲结点的”出现次数“值为这两个结点的出现次数相加,再把这两个结点删除……一直到只剩下一个结点。
不难想出利用优先队列来模拟以上过程
代码实现
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <iostream>
#include <string>
#include <queue>
#include <vector>
using namespace std;
const int MAXN = 105;
const int MAXM = 130; // ASCII码最大为127,所以我们开130
struct data {
int ff; // Frequency of occurrence 出现次数
vector<char> c; // 合并而成当前结点的字符集合
friend bool operator<(data x, data y) {
// 重载运算符,小根堆
return x.ff > y.ff;
}
} t[MAXN];
int h[MAXM]; // 每个字符所在深度
bool flag[MAXN]; // 在初始入队时,标记是否在队列中
priority_queue<data> q;
string s; // 输入
void init() { // 初始化
for(int i = 0; i < 130; i++) {
h[i] = false;
flag[i] = false;
t[i].ff = false;
t[i].c.clear();
}
while(!q.empty()) q.pop();
return ;
}
void Huffman_Tree(int len) { // Huffman
for(int i = 0; i < len; i++) { // 枚举每一个字符
t[s[i]].ff++; // 当前字符出现次数加一
if(t[s[i]].c.size() == 0) // 没有进入集合
t[s[i]].c.push_back(s[i]);
}
for(int i = 0; i < len; i++) { // 再次枚举
if(flag[s[i]] == false) { // 没有进队
q.push(t[s[i]]);
flag[s[i]] = true;
}
}
while(q.size() != 1) { // 当前长度不为1
data x = q.top(); // 取出最小的
q.pop();
data y = q.top(); // 取出当前最小的
q.pop();
data z; // 提前定义合并后入队的
for(int i = 0; i < x.c.size(); i++) {
h[x.c[i]]++; // 因为是合并,所有深度肯定会加一
z.c.push_back(x.c[i]); // 把构成x的字符集合全部装进构成z的字符集合中
}
for(int i = 0; i < y.c.size(); i++) { // 同
h[y.c[i]]++;
z.c.push_back(y.c[i]);
}
z.ff = x.ff + y.ff; // 更新“出现次数”
q.push(z); // 进队
}
return ;
}
int main() {
string s;
while(cin >> s) { // 无限输入
if(s[0] == 'E' && s[1] == 'N' && s[2] == 'D') // 如果输入的是“END”?结束程序
return 0;
init(); // 初始化
int len = s.size(); // 得到字符串长度
Huffman_Tree(len); // Huffman
int ans = 0;
for(int i = 0; i < len; i++)
ans += h[s[i]]; // 累加每个字符的深度,即每个字符的二进制编码长度
if(ans == 0)
// 如果是0?就代表每个字符的二进制编码长度都为0,即字符串里只有一个字符
// 如果每个字符串里只有一个字符?就代表整棵树只有根结点,也就是每个字符的二进制编码长度均为1
// 所以直接输出长度即可
printf("%d\n", len);
else
printf("%d ", ans);
}
return 0;
}