压缩与解压缩的本质
压缩与解压缩
压缩的原理
分析文件中长字符串的分布和重复情况;
建立短字符串与长字符串的映射关系;
压缩时:用短字符串(中国)代替长字符串(中华人民共和国)
解压缩时:用长字符串替换短字符串
压缩的本质:找出文件中字符串的概率分布,然后将出现概率高的字符串替换成更短的形式!
特点:
1)重复性越高的文件,压缩率越高!重复性越低,压缩率越低!
去压缩已经压缩过的文件是否有意义?
取决于压缩算法,好的算法已经把重复性降到了最低,所以,压缩已经压缩过的文件,意义不大!
参考
数据压缩与信息熵
http://www.ruanyifeng.com/blog/2014/09/information-entropy.html