1-1:数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?

答:数据压缩,就是指不丢失有用信息的前提下,以最少的数码表示信号源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间。

          所谓的信号空间就是我们压缩的对象,即 

1) 物理空间,如存储器和U盘等数据存储介质。

2) 时间空间,如传输给定消息集合所需的时间。

3)频带空间,如传输给定消息所要求的宽带等。

1-2:数据压缩的另一个基本问题是“为什么进行压缩”,对此你又是如何理解的?

答:减少信息存储空间,提高其传输、存储和处理效率。经过数据压缩可以将一些占用内存比较大多媒体数据,压缩成可以缩小的文件内存,这样可以方便传递。

1-6:数据压缩技术是如何进行分类的?
答:(1)按照压缩方法是否产生失真分类 —— 根据解码后数据与原始数据是否完全一致进行分类,压缩方法可被分为有失真编码和无失真编码两大类。

(2)按照压缩方法的原理分类 —— 根据编码原理进行分类,大致有编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。


1.4 1、用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

压缩了一下发现小的图片压缩后变化基本没有,文字文件变化不大,但是影音文件变化很大。




1.4.2 从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs 
to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本 
中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

冗余度它表征源信息率的多于程度,是描述信源客观统计特性的一个物理量。也可以说是从多余的一个量,它不影响数据的完整,也正是因为这一个多余量的存在,才能对其信源进行压缩,压缩后不会影响传递信息。信源=信息+冗余度。

三、参考书《数据压缩导论(第4版)》Page 30

3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:

(a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

          h=-1/4*4*log21/4

           =2(bit)

(b)P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8 

         h= -1/2log21/2-1/4*log21/4-2*1/8*log21/8

           =1.75(bit)

(c)P(a1)=0.505 ,  P(a2)=1/4 , P(a3)=1/4 , P(a4)=0.12 

        h=-0.505*log20.505-1/4*log21/4-1/4*log21/4-0.12*log20.12          

          =1.8672(bit)

            

 5、考虑以下序列:

                ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

(a)根据此序列估计各概率值,并计算这一序列的一阶、二阶、三阶和四阶熵。

(b)根据这些熵,能否推断此序列具有什么样的结构?

答(a):
1:
A出现的次数是:21; T出现的次数是:23 ;G出现的次数是:16 ;C出现的次数是:24;
 P(A)=1/4 ;
P(T)=23/84;
 P(G)=4/21;
 P(C)=2/7;
一阶熵为:
-1/4*log2(1/4)-23/84*log2(23/84)-4/21*log2(4/21)-2/7*log2(2/7)
=1.983(bit)
 2:按顺序把每两个字母进行组队得到:
AT,GC,TT,AA,CG,TG,CT,TA,AC,CT,GA,AG,CT,TC,CG,CT,GA,AG,AA,CC,TG
CT,GA,AC,CC,GC,TT,AA,GC,TT,AA,GC,TG,AA,CC,TT,CT,GA,AC,CT,GC,TT
出现的组合分别是:AT,GC,TT,AA,CG,TG,TA,AC,AG,TC,CC,CT十二种组合,
AT出现的次数是:1 ;GC出现的次数是:5 ;TT出现的次数是:5; AA出现的次数是:5 ;CG出现的次数是:2; TG出现的次数是:3;TA出现的次数是:1 ;AC出现的次数是:4 ;AG出现的次数是:2; TC出现的次数是:1 ;CC出现的次数是:3 ;CT出现的次数是:7;
P(AT)=1/42,P(GC)=5/42,P(TT)=5/42,P(AA)=5/42,P(CG)=1/21,P(TG)=1/14,P(CT)=7/42,P(TA)=1/42,P(AC)=1/14,P(GA)=2/21,P(AG)=1/21,P(TC)=1/42,P(CC)=1/14
 二阶熵为:
-1/42*log2(1/42)*4-5/42*log2(5/42)*3-1/21*log2(1/21)*2-1/14*log2(1/14)*3-2/21*log2(2/21)-7/42*log2(7/42)
=3.530(bit)
3:按顺序把每三个字母进行组队得到:

ATG,CTT,AAC,GTG,CTT,AAC,CTG,AAG,CTT,CCG,CTG,AAG,AAC,CTG
CTG,AAC,CCG,CTT,AAG,CTT,AAG,CTG,AAC,CTT,CTG,AAC,CTG,CTT
 得到的组合分别是:ATG,CTT,AAC,GTG,CTG,AAG,AAG
ATG出现的次数是:1 ;CTT出现的次数是:7 ;AAC出现的次数是:6 ;GTG出现的次数是:1;
 CTG出现的次数是:7 ;AAG出现的次数是:4 ;AAG出现的次数是:2;
P(ATG)=1/28,P(CTT)=7/28,P(AAC)=3/14,P(GTG)=1/28,P(CTG)=1/4,P(AAG)=1/7,P(CCG)=1/14
 三阶熵为:
-1/28*log2(1/28)*2-1/4*log2(1/4)*2-3/14*log2(3/14) -1/7*log2(1/7) -1/14*log2(1/14)
=2.491(bit)
4:按顺序把每四个字母进行组队得到:
ATGC,TTAA,CGTG,CTTA,ACCT,GAAG,CTTC,CGCT,GAAG,AACC,TGCT
GAAC,CCGC,TTAA,GCTT,AAGC,TGAA,CCTT,CTGA,ACCT,GCTT
得到的组合分别是:ATGC,TTAA,CGTG,CTTA,ACCT,GAAG,CTTC,CGCT,AACC,TGCT;
 
ATGC出现的次数是:1 TTAA出现的次数是:2; CGTG出现的次数是:1; CTTA出现的次数是:1; ACCT出现的次数是:2; GAAG出现的次数是:2 ;CTTC出现的次数是:1 ;
CGCT出现的次数是:1 ;AACC出现的次数是:1; TGCT出现的次数是:1;
GAAC出现的次数是:1 ;GCTT出现的次数是:2 ;  AAGC出现的次数是:1;
TGAA出现的次数是:1‘ CCTT出现的次数是:1; CTGA出现的次数是:1 ;
P(ATGC)=1/21,P(TTAA)=2/21,P(CGTG)=1/21,P(CTTA)=1/21,P(ACCT)=2/21,P(GAAG)=2/21,P(CTTC)=1/21,P(CGCT)=1/21,P(AACC)=1/21,P(TGCT)=1/21,P(GAAC)=1/21,P(CCGC)=1/21,P(GCTT)=2/21,P(AAGC)=1/21,P(TGAA)=1/21,P(CCTT)=1/21,P(CTGA)=1/21.
 四阶熵为:
-1/21*log2(1/21)*13-2/21*log2(2/21)*4
=4.01(bit)
得到的规律:当构成的字母个数越多所得的熵就越大。

7、做一个实验,看看一个模型能够多么准确地描述一个信源。

 (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?