第一次作业

1-1 数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?

答:1、物理空间,如存储器、磁盘、磁带、光盘、U盘等数据存储介质。

2、时间区间,如传输给定消息集合所需要的时间。

3、电磁频段,如为传输给定消息集合所要求的频谱、带宽等。

1-2 数据压缩的另一个基本问题是“为什么进行压缩”,对此你是怎样理解的?

答:信息时代带来了“信息爆炸”,数据量大,所用的存储空间也会变大。数据压缩的作用及社会效益、经济效益将越来越明显。反之,如果不进行数据压缩,则无论传输或存储都很难实用化。而数据压缩的好处就在于: 1、较快的传输各种信源(降低信道占有费用)——时间域的压缩。 2、在现有通信干线上开通更多的并行业务(如电视、传真、电话、可视图文等)——频率域的压缩。 3、降低发射功率(这对于依靠电池供电的移动通信终端,如手机、个人数字助理(PDA)、无线传感器网络等尤为重要)——能量域的压缩。 4、紧缩数据存储容量——空间域的压缩。

1-6 数据压缩技术是如何分类的?

答:按数据压缩的可逆性进行分类,分为可逆压缩和不可逆压缩。 可逆压缩也叫无失真、无差错编码或无噪声编码、无损压缩,而不同专业的文献作者还采用了一些术语如冗余度压缩、熵编码、数据紧缩、信息保持编码等等。 不可逆压缩就是有失真编码,信息论中称熵压缩。

《数据压缩导论(第4版)》 1.4

1、用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

答:经试验发现原文件的大小和类型对于压缩文件与原文件大小之比有影响,特别是TXT类型的,压缩文件与原文件大小之基本是百分之五十,其他类型的文件压缩之后大小变化不大,文件越大能压缩的就多。

2、 从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

答:我们不能就其冗余度做出定量论述。

 

 《数据压缩导论(第4版)》Page 30

3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:

 

(a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

 

(b)P(a1)=1/2 , P(a2)=1/4 , P(a3)=P(a4)=1/8 

 

(c)P(a1)=0.505 ,  P(a2)=1/4 , P(a3)=1/4 , P(a4)=0.12 

答:

(a)H= -1/4log2 (1/4)-1/4log2 (1/4)-1/4log2 (1/4)-1/4log2 (1/4)

         = 2 (bits/symbol)

(b)H= -1/2log2(1/2)-1/4log2(1/4)-1/8log2(1/8)-1/8log2(1/8)

         =1.75(bits/symbol)

(c)H= - 0.505 * log0.505 - 1/4 * log1/4 - 1/4 * log1/4 - 0.12 * log0.12

         =1.74(bits/symbol)

 

5、考虑以下序列:

ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

(a)根据此序列估计各概率值,并计算这一序列的一阶、二阶、三阶和四阶熵

答:

(a)由题意得:P(A)=21/84=1/4 、P(G)=16/84=4/21 、P(C)=24/84=2/7、P(T)=23/84

      一阶熵为:H= -( P(A)log2P(A)+P(C)log2P(C)+P(G)log2P(G)+P(T)log2P(T) )=2(bits/symbol)

 

7、做一个实验,看看一个模型能够多么准确地描述一个信源。

 (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?

 

posted @ 2015-08-26 20:58  屈艳红  阅读(276)  评论(0编辑  收藏  举报