C语言Huffman压缩和解压

符号表结构体:

struct node
{
    // 字符串形式存储的Huffman编码
    char code[MAX_CODE_LENGTH];
    // 这个字符在文件中出现的次数
    long count;
    // 在生成Huffman树的时候是否已经被当作叶子节点
    int checked;
    // 符号
    char sym;
    // left和right只在生成Huffman树的时候有用
    struct node* next,*left,*right;
};

全局变量:

const int BIT_WIDTH_CHAR = 8;
const int END_SYM_FLAG = 200;// 符号的范围是-127~128
int gl_total_node_num = 0;// 符号表的总长度
int gl_source_file_length = 0;// 源文件的总长度

辅助函数:

// 在链表中查找指定的字符
// 参数:符号表
// 参数:字符
// 返回值:找到的节点的指针
struct node* content_char(struct node*,char);
// 在链表中查找指定编码
// 参数:符号表
// 参数:编码
// 返回值:找到的节点的指针
struct node* content_code(struct node* list,const char* ch);
// 根据字符创建一个新的节点
// 参数:字符
// 参数:计数
// 返回值:新节点指针
struct node* create_new_node(char ch,int count);
// 插入新节点到符号表的最前面
// 参数list:目标链表
// 参数new_node:新节点
// 返回值:插入后的链表
struct node* insert_node(struct node *list,struct node *new_node);
// 输出链表
// 参数list:目标链表
void print_list(struct node *list);
// 获取到最小的未被检查的count的节点,返回它的指针,并将其设置为检查过的
// 参数list_addr:链表头
// 返回值:第一个未检查的最少出现次数的结点指针
struct node* get_smallest_node(struct node *list_addr);

压缩:

第一步:建立符号表

在main函数中:获取文件的总长度,用于生成进度条

// 获取文件长度,以实现进度条
fseek(source_file,0,SEEK_END);
gl_source_file_length = ftell(source_file);
fseek(source_file,0,SEEK_SET);

扫描源文件,按字符读取,建立符号表,统计每个字符出现的次数

首先提示进度条,10个'.'为结束

将读取到的字符在已有的符号表中查找,如果已存在就将该节点的count+1,否则就创建新节点并插入到符号表中

统计符号表中总节点数

// 生成符号链表(含频率)
// 参数:源文件
// 参数:目标链表
// 返回值:符号链表
struct node* generate_count(FILE* f,struct node*list)
{
    printf("counting");
    int count=0;
    
    char ch;
    struct node *content_node;
    while(fread(&ch,sizeof(char),1,f)==1)
    {
        // 进度条
        count++;
        if(count%(gl_source_file_length/10+1)==0)
            printf(".");
        
        // 插入符号表
        content_node = content_char(list,ch);
        if(content_node)
            content_node->count++;
        else 
        {
            gl_total_node_num++;
            list=insert_node(list,create_new_node(ch,1));
        }
    }
    printf("\n");
    return list;
}

第二步:生成Huffman树

生成Huffman树

使用先前统计的符号表总数进行计数循环,因为生成树的所有非叶子节点共有叶子节点-1个

首先输出进度条

视初始时所有的符号表中的节点为只有一个节点的子树,获取两个最小的count的子树根节点指针,这是通过节点的checked属性实现的,如果使用了两个子树根节点生成新的子树,那么这两个子树根节点的checked将会设为1,在寻找最小节点的时候将会跳过

将新的树的中间节点插入到符号表中

最终的效果是符号表中只有最前面的一个节点的checked为0

// 生成Huffman树
// 参数:符号链表
// 返回值:含有Huffman树的链表,非叶节点将插入到链表前面,并有左右孩子属性,叶节点没有左右孩子属性
struct node* generate_tree(struct node* list)
{
    printf("generate_tree");
    // 生成树
    for(int i=1;i<gl_total_node_num;i++)
    {
        // 进度条
        if(i%(gl_total_node_num/10+1)==0)
            printf(".");
        
        // 获取最小出现次数的两个符号,并生成新的节点插入符号表
        struct node *sm_left=get_smallest_node(list);
        struct node *sm_right=get_smallest_node(list);
        struct node *new_node=create_new_node('\0',sm_left->count+sm_right->count);
        new_node->left=sm_left;
        new_node->right=sm_right;

        list = insert_node(list,new_node);
    }
    printf("\n");
    return list;
}

第三步:生成编码

从Huffman树中生成符号表的编码属性

因为这是一棵树,所以用递归的方式进行

某节点的左孩子的编码将在继承其父节点编码的基础上扩展'0',右孩子将在继承其父节点的编码的基础上扩展'1'

最终所有叶子节点的编码就是Huffman编码

// 递归的生成Huffman编码于符号链表
// 参数:Huffman树
void generate_code(struct node*list)
{
    // 生成Huffman编码
    if(!list)return;
    // 左子树扩展'0'
    if(list->left)
    {
        strcat(list->left->code,list->code);
        strcat(list->left->code,"0");
        generate_code(list->left);
    }
    // 右子树'1'
    if(list->right)
    {
        strcat(list->right->code,list->code);
        strcat(list->right->code,"1");
        generate_code(list->right);
    }
}

因为之后树就没什么用了,只有叶子节点有用,所以将其他节点释放掉

// 释放Huffman树的非叶子节点,只留下符号链表
// 参数:Huffman树
// 返回值:不含Huffman树的符号链表
struct node* free_tree(struct node*list)
{
    struct node*free_node=list;
    while(list->left && list->right)// 左右子树不为空的节点都是需要释放的
    {
        free_node=list;
        list=list->next;
        free(free_node);
    }
    return list;
}

第四步:生成目标文件

首先将符号表写入到目标文件头部,再次扫描源文件,将每个字符转换为对应的编码,并以二进制的形式存储在目标文件中

// 生成目标文件
// 参数:源文件
// 参数:目标文件
// 参数:符号链表
void generate_des_file(FILE* sf,FILE* df,struct node*list)

首先,为了解压,要把符号表的内容写入到目标文件前面

其中符号和编码时两两配对的,最后通过一个符号表不可能取到的值标记结束

标识符之间是通过空格隔开,最终结束时以换行符结尾。这里的规则将在解压的时候需要严格遵守

// 符号表以文本形式写入到目标文件的前端,解压时需要的信息
struct node* index=list;
while(index)
{
    fprintf(df,"%d %s ",index->sym,index->code);
    index=index->next;
}
// 指示结尾,"END"实际上没有用到,只用于和END_SYM_FLAG配对
fprintf(df,"%d %s\n",END_SYM_FLAG,"END");

变量:

// 实际文件内容(二进制形式)
// 前者是从源文件中读取的字符,后置是对Huffman编码进行二进制形式转换后取8位形成的字符
char ch,des_ch='\0';
// 目标字符知否足够8位可以进行写入?
int des_ch_length=0;
// 因为之前进行了读取,所以这里回到文件头
fseek(sf,0,SEEK_SET);
int count=0;// 程序执行进度提示

while循环读文件:

while(fread(&ch,sizeof(char),1,sf)==1)

输出进度条,并根据从源文件中读取的字符找符号表中对应的节点

// 进度条
count++;
if(count%(gl_source_file_length/10+1)==0)
    printf(".");

// 在符号表中找这个字符
// 没有找到一定是出错了
struct node *content_node = content_char(list,ch);
if(!content_node)
{
    printf("error:cannot match with sym list\n");
    exit(0);
}

现在需要将符号对应的字符串Huffman编码转化为一个个8位char类型,其中每一位代表一位Huffman编码

对这个编码每一位循环处理:将已经部分生成的目标字符左移一位,如果当前的编码位为1就用掩码0000 0001和目标字符按位或,那么最后一位将为1,其余不变,当前编码位为0就不做操作,因为本来左移就补0

当记录的长度达到8的时候就将这个字符写入到目标文件,将记录长度清零,继续对编码的每一位循环

// 对这个符号对应的Huffman编码进行二进制转化
char* current_code=content_node->code;
for(int i=0;i<strlen(current_code);i++)
{
    // 每次循环左移一位,长度+1
    des_ch=des_ch<<1;
    des_ch_length++;
    // 末位默认位0,否则置1
    if(current_code[i]=='1')des_ch |= (char)1;
    
    // 已经足够了一个字符,就写入,并清0
    if(des_ch_length==8)
    {
        if(!fwrite(&des_ch,sizeof(char),1,df))
        {
            printf("error:cannot write to des file.\n");
            exit(0);
        }
        des_ch_length=0;
        des_ch=0;
    }// 形成了一个字符
}// Huffman编码

但是最后一位不一定够8位,这需要额外的说明

将剩下的这个字符左对齐,并在目标文件的最后一个字符说明前一个字符有几位有效

// 最后一个字符,没有满足8位
if(des_ch_length!=0)
{
    des_ch=des_ch<<BIT_WIDTH_CHAR-des_ch_length;
    if(!fwrite(&des_ch,sizeof(char),1,df))
    {
        printf("error:cannot write to des file.\n");
        exit(0);
    }
}
// 最后这个一定是一个字符(1-8),表示最后一个有效字符的长度
fprintf(df,"%d",des_ch_length);

 

解压:

第一步:从目标文件读取符号表

首先从源文件头读取并创建符号表

值得注意的是读取字符串的时候用fscanf将会在遇到空格的时候结束,而用其他的方式将会在换行符时结束,但是我们在生成的时候全都生成在一行

在读取结束的时候需要将换行符读掉,否则接下来将会读到换行符并解析

// 获取文件头的符号表
// 参数:源文件
// 返回值:符号表
struct node* de_get_sym_list(FILE* f)
{
    printf("getting sym list...\n");
    
    char code[MAX_CODE_LENGTH];
    int ch_int;
    struct node* list=NULL;
    
    fscanf(f,"%d %s",&ch_int,code);
    // 如果没有读到结束标志
    while(ch_int!=END_SYM_FLAG)
    {
        // 创建新节点并插入符号表
        struct node* new_node=create_new_node((char)ch_int,0);
        strcpy(new_node->code,code);
        list=insert_node(list,new_node);
        fscanf(f,"%d %s",&ch_int,code);
    }
    fgetc(f);// 将换行符读掉,按照生成的规则,最后是一个换行符
    return list;
}

第二步:解析压缩内容

// 生成解压后的文件
// 参数:源文件
// 参数:目标文件
// 参数:符号链表
void de_generate_des_file(FILE* sf,FILE* df,struct node* list)

变量:

// 存储未形成一个有效的Huffman编码的字符串
char temp_code[MAX_CODE_LENGTH] = {'\0'};
int last_length;// 最后一个字符的有效位长度
// 分别指向实际的压缩内容(去除头部的符号表)的头和尾
long current_file_index,file_length;
// 位操作的掩码,首位为1其余为0
char mask=((char)1)<<BIT_WIDTH_CHAR-1;
// 用于扩展Huffman编码的字符串,"0"或者"1"
char append[]={'0','\0'};

对文件的长度进行测量,并将最后一个字符有效位数读取进来,如果不记录长度,在之后的循环读取中想要跳过最后一个符号将会有些麻烦

记得要将文件的游标移动到合适的位置

// 记录此时符号表读取结束的位置
current_file_index = ftell(sf);
// 从文件尾获取最后一个字符的长度,以及文件的长度
fseek(sf,-(sizeof(char)),SEEK_END);
file_length = ftell(sf);
last_length = fgetc(sf)-'0';
// 回复当前位置到符号表结束的位置
fseek(sf,current_file_index,SEEK_SET);

因为已知了长度,所以读文件的时候可以计数循环,而不是检测文件尾。跳过最后一个字符(当然,这里的最后一个不包括后面的那个表示它的有效位数的数字字符)

for(int i=current_file_index;i<file_length-1;i++)

首先时进度条,并进行读取:

// 进度条
if(i%((file_length-current_file_index)/10+1)==0)
    printf(".");
// 读取是否成功
if(fread(&ch,sizeof(char),1,sf)!=1)
{
    if(ferror(sf))
        printf("error:cannot read file.\n");
    if(feof(sf))
        printf("end of reading file.\n");
    exit(0);
}

对这个字符的每一位循环,将这个位转化为字符形式扩展到已有的字符串上,每扩展一位就检测一下符号表中有没有这个编码,有了就将对应的字符输出到文件中,并将字符串清空

位操作需要获取的是第一个位,所以掩码是第一位为1其余为0,按位与将获取第一个位:非0为1,0为0

// 将这一个字符的每一位扩展到未竟的Huffman编码上
for(int j=0;j<BIT_WIDTH_CHAR;j++)
{
    append[0]='0' + ((ch & mask)==0?0:1);
    strcat(temp_code,append);
    ch=ch<<1;
    // 尝试在符号表中寻找
    the_node = content_code(list,temp_code);
    if(the_node)
    {
        // 如果找到了就把其代表的符号写入文件
        if(fwrite(&(the_node->sym),sizeof(char),1,df)!=1)
        {
            printf("error:failed to write file.\n");
            exit(0);
        }
        // 清零临时字符串
        temp_code[0]='\0';
    }// 如果在符号表中找到
}// 对一个字符的每一位

最后一个字符,利用之前的长度进行循环,而不是8位

// 最后一个字符
if(fread(&ch,sizeof(char),1,sf)!=1)
{
    printf("error:cannot read file.\n");
    exit(0);
}
for(int i=0;i<last_length;i++)
{
    append[0]='0' + ((ch & mask)==0?0:1);
    strcat(temp_code,append);
    ch=ch<<1;
    // 尝试在符号表中寻找
    the_node = content_code(list,temp_code);
    if(the_node)
    {
        // 如果找到了就把其代表的符号写入文件
        if(fwrite(&(the_node->sym),sizeof(char),1,df)!=1)
        {
            printf("error:failed to write file.\n");
            exit(0);
        }
        // 清零临时字符串
        temp_code[0]='\0';
    }// 如果在符号表中找到
}

辅助函数:

// 根据字符创建一个新的节点
// 参数:字符
// 参数:计数
// 返回值:新节点指针
struct node* create_new_node(char ch,int count)
{
    struct node *new_node = (struct node*)malloc(sizeof *new_node);
    if(!new_node)
    {
        printf("error:failed to malloc.\n");
        exit(0);
    }
    new_node->code[0]='\0';
    new_node->sym=ch;
    new_node->count=count;
    new_node->next=NULL;
    new_node->checked=0;
    new_node->left=NULL;
    new_node->right=NULL;
    return new_node;
}

 

// 插入新节点
// 参数list:目标链表
// 参数new_node:新节点
// 返回值:插入后的链表
struct node* insert_node(struct node *list,struct node *new_node)
{
    if(list)
        new_node->next=list;
    return new_node;
}

 

// 获取到最小的未被检查的count的节点,返回它的指针,并将其设置为检查过的
// 参数list_addr:链表头
// 返回值:第一个未检查的最少出现次数的结点指针
struct node* get_smallest_node(struct node *list)
{
    while(list && list->checked)list=list->next;// 获取到首个未检查的节点
    struct node *smallest=list;
    // 获取到最小的count的节点
    while(list)
    {
        if(!list->checked && (list->count < smallest->count))
            smallest=list;
        list=list->next;
    }
    if(smallest)smallest->checked++;
    return smallest;
}

执行程序:

我用的是Windows10下的gcc编译器,命令行执行,并通过命令行参数传递源文件名和目的文件名

编译:gcc Huffman.c -o Huffman.exe

执行:Huffman.exe sourcefile desfile

执行之后会询问是执行压缩还是解压还是结束程序

执行压缩会把源文件压缩另存为目的文件

解压会将源文件解压另存为目的文件

需要注意的问题:

文件打开的时候是要用二进制流的形式打开,因为要对其进行位操作。如果用文本模式打开,在解压非文本文件的时候在中途程序就可能会认为自己读到的是EOF而结束读取。

因为符号是char类型的字符,所以符号表最大是256,编码的长度最长为255

将char解释为int类型时其取值范围为-127~128,所以想要标记压缩文件中符号表内容的结束,需要用这个范围之外的数

源码地址:

https://github.com/biaoJM/Huffman-Compression

 

 

posted @ 2018-09-26 18:36  biaoJM  阅读(290)  评论(0编辑  收藏  举报