最优前缀码(哈夫曼编码)
1、问题
给定字符集C={x1,x2,…,xn}和每个字符的频率f(xi),求关于C的一个最优前缀码,即总码长度最短且没有二义性。
2、解析
哈夫曼编码的基本思想是以字符的使用频率作为权构建一棵哈夫曼树,然后利用哈夫曼树对字符进行编码。构造一棵哈夫曼树,是将所要编码的字符作为叶子结点,该字符在文件中的使用频率作为叶子结点的权值,以自底向上的方式,通过 n−1 次的“合并”运算后构造出的一棵树,核心思想是权值越大的叶子离根越近。
哈夫曼算法采取的贪心策略是每次从树的集合中取出没有双亲且权值最小的两棵树作为左右子树
3、设计
1 #include<cstdio> 2 #include<cstdlib> 3 #include<cstring> 4 #include<algorithm> 5 using namespace std; 6 7 #define n 6 //叶子数目 8 #define m 2*n-1 //树中结点总数 9 typedef struct{ //结点类型 10 double weight; //结点的权值 11 int parent,lchild,rchild;//双亲指针及左右孩子 12 }HTNode; 13 typedef HTNode HuffmanTree[m];//HuffmanTree是向量类型 14 15 typedef struct{ //用于SelectMin函数中排序的结点类型 16 int id; //保存根结点在向量中的序号 17 double weight; //保存根结点的权值 18 }temp; 19 20 typedef struct{ //编码结点 21 char ch; //存储字符 22 char bits[n+1]; //存放编码位串 23 }CodeNode; 24 typedef CodeNode HuffmanCode[n]; 25 26 void InitHuffmanTree(HuffmanTree T){ 27 //初始化哈夫曼树 28 //将2n-1个结点里的三个指针均置为空(即置为-1),权值置为0 29 for(int i=0;i<m;i++){ 30 T[i].lchild=-1; 31 T[i].rchild=-1; 32 T[i].parent=-1; 33 T[i].weight=0; 34 } 35 } 36 37 void InputWeight(HuffmanTree T){ 38 //输入叶子权值 39 //读人n个叶子的权值存于向量的前n个分量中 40 for(int i=0;i<n;i++){ 41 double x; 42 scanf("%lf",&x); 43 T[i].weight=x; 44 } 45 } 46 47 bool cmp(temp a,temp b){ 48 //用于排序的比较函数 49 return a.weight<b.weight; 50 } 51 52 void SelectMin(HuffmanTree T,int k,int *p1,int *p2){ 53 //在前k个结点中选择权值最小和次小的根结点,其序号分别为p1和p2 54 temp x[m]; //x向量为temp类型的向量 55 int i,j; 56 for(i=0,j=0;i<=k;i++){ //寻找最小和次小根节点的过程 57 if(T[i].parent==-1){//如果是根节点,则进行如下操作 58 x[j].id=i; //将该根节点的序号赋值给x 59 x[j].weight=T[i].weight;//将该根节点的权值赋值给x 60 j++; //x向量的指针后移一位 61 } 62 } 63 sort(x,x+j,cmp); //对x按照权值从小到大排序 64 //排序后的x向量的第一和第二个位置中存储的id是所找的根节点的序号值 65 *p1=x[0].id; 66 *p2=x[1].id; 67 } 68 69 void CreateHuffmanTree(HuffmanTree T){ 70 //构造哈夫曼树,T[m-1]为其根结点 71 int i,p1,p2; 72 InitHuffmanTree(T); //将T初始化 73 InputWeight(T); //输入叶子权值 74 for(i=n;i<m;i++){ 75 //在当前森林T[0..i-1]的所有结点中,选取权最小和次小的 76 //两个根结点T[p1]和T[p2]作为合并对象 77 //共进行n-1次合并,新结点依次存于T[i]中 78 79 SelectMin(T,i-1,&p1,&p2);//选择权值最小和次小的根结点,其序号分别为p1和p2 80 81 //将根为T[p1]和T[p2]的两棵树作为左右子树合并为一棵新的树 82 //新树的根是新结点T[i] 83 T[p1].parent=T[p2].parent=i;//T[p1]和T[p2]的两棵树的根结点指向i 84 T[i].lchild=p1; //最小权的根结点是新结点的左孩子 85 T[i].rchild=p2; //次小权的根结点是新结点的右孩子 86 T[i].weight=T[p1].weight+T[p2].weight;//新结点的权值是左右子树的权值之和 87 } 88 } 89 90 void CharSetHuffmanEncoding(HuffmanTree T,HuffmanCode H){ 91 //根据哈夫曼树T求哈夫曼编码表H 92 int c,p;//c和p分别指示T中孩子和双亲的位置 93 char cd[n+1];//临时存放编码 94 int start;//指示编码在cd中的起始位置 95 cd[n]='\0';//编码结束符 96 getchar(); 97 for(int i=0;i<n;i++){//依次求叶子T[i]的编码 98 H[i].ch=getchar();//读入叶子T[i]对应的字符 99 start=n;//编码起始位置的初值 100 c=i;//从叶子T[i]开始上溯 101 while((p=T[c].parent)>=0){//直至上溯到T[c]是树根为止 102 //若T[c]是T[p]的左孩子,则生成代码0;否则生成代码1 103 if(T[p].lchild==c) 104 cd[--start]='0'; 105 else 106 cd[--start]='1'; 107 c=p;//继续上溯 108 } 109 strcpy(H[i].bits,&cd[start]);//复制编码位串 110 } 111 } 112 113 int main(){ 114 HuffmanTree T; 115 HuffmanCode H; 116 printf("请输入%d个叶子结点的权值来建立哈夫曼树:\n",n); 117 CreateHuffmanTree(T); 118 printf("请输入%d个叶子结点所代表的字符:\n",n); 119 CharSetHuffmanEncoding(T,H); 120 printf("哈夫曼树已经建好,哈夫曼编码已经完成,输出如下:\n"); 121 printf("哈夫曼树:\n"); 122 for(int i=0;i<m;i++){ 123 printf("id:%d weight:%.1lf parent:%d",i,T[i].weight,T[i].parent); 124 printf(" lchild:%d rchild:%d\n",T[i].lchild,T[i].rchild); 125 } 126 printf("哈夫曼编码:\n"); 127 double wpl=0.0; 128 for(int i=0;i<n;i++){ 129 printf("id:%d ch:%c code:%s\n",i,H[i].ch,H[i].bits); 130 wpl+=strlen(H[i].bits)*T[i].weight; 131 } 132 printf("平均码长为:%.2lf\n",wpl); 133 return 0; 134 }
4、分析
0(nlogn)频率排序;for循环0(n),插入操作0(logn),算法时间复杂度是0(nlogn)
5、源码
https://github.com/ChenyuWu0705/Algorithm-Analyze-and-Design/blob/main/Huffman.cpp