邹宏佼的第一次作业

1.

1-1:数据压缩是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间,所以我认为我们我们要压缩的是物理空间,时间空间和电磁频谱区域等。

1-2:如果没有压缩很多应用/服务不可行,很多应用/服务更贵,故不进行数据压缩,无论传输或存储都很难实用化,数据压缩的好处在于较快地传输各种信源,开通更多的并行业务,降低发射机功率,所以进行了数据压缩。

1-6:能够取得一致的分类方法就是将数据压缩分为在某种程度上可逆的与实际上不可逆的两大类,这样更能说明他们的本质区别。

2、 参考书《数据压缩导论(第4版)》Page 8     1.4

1.用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

答:压缩过的文件和没压缩过的原文件大小有的明显变小了,有的变化不是很明显,但是压缩到一定的程度便不可以再进行压缩了。

 2. 从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在"this is the dog that belong to my friend”  中,删除 is 、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一实验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

答:不能就其冗余度做出定量论述。对于摘自不同来源的文字,重复度不一样。有一些单词会重复出现多次。

 

3、 参考书《数据压缩导论(第4版)》Page 30

3、给定符号集A={a1,a2,a3,a4},求一下条件下的一阶熵:

解答:

(a) 由于P(a1)=P(a2)=P(a3)=P(a4)=1/4

所以一阶熵H为:H=-4*1/4*log2(1/4)=2(bit)

(b)一阶熵H为:H=-1/2*log2(1/2)-1/4*log2(1/4)-2*(1/8)*log2(1/8)=7/4(bit)

(c)一阶熵H为:H=-0.505*log2(0.505)-1/4*log2(1/4)-(1/8)*log2(1/8)-0.12log2(0.12)=1.745(bit)

5、考虑以下序列:

                ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                CTGAACCCGCTTAAGCTTAAGCTGAACCTTCTGAACCTGCTT

(a)根据此序列估计各概率值,并计算这一序列的一阶、二阶、三阶和四阶熵。

(b)根据这些熵,能否推断此序列具有什么样的结构?

解答:

(a)各概率值分别为:

P(A)=21/84

P(T)=23/84

P(C)=24/84

P(G)=16/84

一阶熵H为:H=-(21/84)*log2(21/84)-(23/84)*log2(23/84)-(24/84)*log2(24/84)-(16/84)*log2(16/84)=1.983(bit)

 (b)答:根据这些熵可判断出此序列中每个字母出现的概率是不同的,即是非等概率的,且实际英语的某个字母出现后,后面的字母并非完全随机出现,而是满足一定关系的条件概率分布。

7、做一个实验,看看一个模型能够多么准确地描述一个信源。

(a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?

posted @ 2015-08-28 12:03  邹宏佼  阅读(155)  评论(0编辑  收藏  举报