最优前缀码(哈夫曼编码)

1、问题

给定字符集C={x1,x2,…,xn}和每个字符的频率f(xi),求关于C的一个最优前缀码,即总码长度最短且没有二义性。

2、解析

哈夫曼编码的基本思想是以字符的使用频率作为权构建一棵哈夫曼树,然后利用哈夫曼树对字符进行编码。构造一棵哈夫曼树,是将所要编码的字符作为叶子结点,该字符在文件中的使用频率作为叶子结点的权值,以自底向上的方式,通过 n−1 次的“合并”运算后构造出的一棵树,核心思想是权值越大的叶子离根越近。

哈夫曼算法采取的贪心策略是每次从树的集合中取出没有双亲且权值最小的两棵树作为左右子树 

3、设计

  1 #include<cstdio>
  2 #include<cstdlib>
  3 #include<cstring>
  4 #include<algorithm>
  5 using namespace std;
  6 
  7 #define n 6           //叶子数目
  8 #define m 2*n-1       //树中结点总数
  9 typedef struct{       //结点类型
 10     double weight;    //结点的权值
 11     int parent,lchild,rchild;//双亲指针及左右孩子
 12 }HTNode;
 13 typedef HTNode HuffmanTree[m];//HuffmanTree是向量类型
 14  
 15 typedef struct{       //用于SelectMin函数中排序的结点类型
 16     int id;           //保存根结点在向量中的序号
 17     double weight;    //保存根结点的权值
 18 }temp;
 19  
 20 typedef struct{       //编码结点
 21     char ch;          //存储字符
 22     char bits[n+1];   //存放编码位串
 23 }CodeNode;
 24 typedef CodeNode HuffmanCode[n];
 25  
 26 void InitHuffmanTree(HuffmanTree T){
 27     //初始化哈夫曼树
 28     //将2n-1个结点里的三个指针均置为空(即置为-1),权值置为0
 29     for(int i=0;i<m;i++){
 30         T[i].lchild=-1;
 31         T[i].rchild=-1;
 32         T[i].parent=-1;
 33         T[i].weight=0;
 34     }
 35 }
 36  
 37 void InputWeight(HuffmanTree T){
 38     //输入叶子权值
 39     //读人n个叶子的权值存于向量的前n个分量中
 40     for(int i=0;i<n;i++){
 41         double x;
 42         scanf("%lf",&x);
 43         T[i].weight=x;
 44     }
 45 }
 46  
 47 bool cmp(temp a,temp b){
 48     //用于排序的比较函数
 49     return a.weight<b.weight;
 50 }
 51  
 52 void SelectMin(HuffmanTree T,int k,int *p1,int *p2){
 53     //在前k个结点中选择权值最小和次小的根结点,其序号分别为p1和p2
 54     temp x[m];              //x向量为temp类型的向量
 55     int i,j;
 56     for(i=0,j=0;i<=k;i++){  //寻找最小和次小根节点的过程
 57         if(T[i].parent==-1){//如果是根节点,则进行如下操作
 58             x[j].id=i;      //将该根节点的序号赋值给x
 59             x[j].weight=T[i].weight;//将该根节点的权值赋值给x
 60             j++;            //x向量的指针后移一位
 61         }
 62     }
 63     sort(x,x+j,cmp);        //对x按照权值从小到大排序
 64     //排序后的x向量的第一和第二个位置中存储的id是所找的根节点的序号值
 65     *p1=x[0].id;
 66     *p2=x[1].id;
 67 }
 68  
 69 void CreateHuffmanTree(HuffmanTree T){
 70     //构造哈夫曼树,T[m-1]为其根结点
 71     int i,p1,p2;
 72     InitHuffmanTree(T);    //将T初始化
 73     InputWeight(T);        //输入叶子权值
 74     for(i=n;i<m;i++){
 75         //在当前森林T[0..i-1]的所有结点中,选取权最小和次小的
 76         //两个根结点T[p1]和T[p2]作为合并对象
 77         //共进行n-1次合并,新结点依次存于T[i]中
 78  
 79         SelectMin(T,i-1,&p1,&p2);//选择权值最小和次小的根结点,其序号分别为p1和p2
 80  
 81         //将根为T[p1]和T[p2]的两棵树作为左右子树合并为一棵新的树
 82         //新树的根是新结点T[i]
 83         T[p1].parent=T[p2].parent=i;//T[p1]和T[p2]的两棵树的根结点指向i
 84         T[i].lchild=p1;             //最小权的根结点是新结点的左孩子
 85         T[i].rchild=p2;             //次小权的根结点是新结点的右孩子
 86         T[i].weight=T[p1].weight+T[p2].weight;//新结点的权值是左右子树的权值之和
 87     }
 88 }
 89  
 90 void CharSetHuffmanEncoding(HuffmanTree T,HuffmanCode H){
 91     //根据哈夫曼树T求哈夫曼编码表H
 92     int c,p;//c和p分别指示T中孩子和双亲的位置
 93     char cd[n+1];//临时存放编码
 94     int start;//指示编码在cd中的起始位置
 95     cd[n]='\0';//编码结束符
 96     getchar();
 97     for(int i=0;i<n;i++){//依次求叶子T[i]的编码
 98         H[i].ch=getchar();//读入叶子T[i]对应的字符
 99         start=n;//编码起始位置的初值
100         c=i;//从叶子T[i]开始上溯
101         while((p=T[c].parent)>=0){//直至上溯到T[c]是树根为止
102             //若T[c]是T[p]的左孩子,则生成代码0;否则生成代码1
103             if(T[p].lchild==c)
104                 cd[--start]='0';
105             else
106                 cd[--start]='1';
107             c=p;//继续上溯
108         }
109         strcpy(H[i].bits,&cd[start]);//复制编码位串
110     }
111 }
112  
113 int main(){
114     HuffmanTree T;
115     HuffmanCode H;
116     printf("请输入%d个叶子结点的权值来建立哈夫曼树:\n",n);
117     CreateHuffmanTree(T);
118     printf("请输入%d个叶子结点所代表的字符:\n",n);
119     CharSetHuffmanEncoding(T,H);
120     printf("哈夫曼树已经建好,哈夫曼编码已经完成,输出如下:\n");
121     printf("哈夫曼树:\n");
122     for(int i=0;i<m;i++){
123         printf("id:%d  weight:%.1lf   parent:%d",i,T[i].weight,T[i].parent);
124         printf("  lchild:%d rchild:%d\n",T[i].lchild,T[i].rchild);
125     }
126     printf("哈夫曼编码:\n");
127     double wpl=0.0;
128     for(int i=0;i<n;i++){
129         printf("id:%d   ch:%c  code:%s\n",i,H[i].ch,H[i].bits);
130         wpl+=strlen(H[i].bits)*T[i].weight;
131     }
132     printf("平均码长为:%.2lf\n",wpl);
133     return 0;
134 }

4、分析

0(nlogn)频率排序;for循环0(n),插入操作0(logn),算法时间复杂度是0(nlogn)

5、源码

https://github.com/ChenyuWu0705/Algorithm-Analyze-and-Design/blob/main/Huffman.cpp

posted @ 2021-06-04 20:16  programmer_w  阅读(1016)  评论(0编辑  收藏  举报