压缩介绍
压缩原理:把文件里面的二进制0.1代码减少,比如有00000,可以记成50,表示5个0.
压缩文件的原理:查找文件里的重复字节,然后建立字节的“词典”文件,并用一个代码表示。
常见的压缩方式有:zip压缩和rar压缩。简单来说就是压缩重复。重复也分为两种:短语的重复和单字节的重复,对于后者的重复可以先经过统计后,对256种字节重新编码(Huffman编码),对于出现次数较多的字节用较短的编码。
简单的建字典的实例:
Ask not what your country can do for you——ask what you can do for your country.
我们发现ask、not、what、your、country、can、do、for、you均出现了两次,因此我们建立以下字典:
ask------1
what----2
your-----3
country-4
can------5
do-------6
for-------7
you------8
如此,句子就变成:1 not 2 3 4 5 6 7 8--1 2 8 5 6 7 3 4,完成后我们将字典与句子一起储存,显然解压缩就是查找字典还原的过程。接下来我们分析下节省了多少空间:
原句:占用了79个内存单元
压缩后的句子:37个单元+字典:占用了37个内存=74
减少了:5个内存单元