第一次作业
---恢复内容开始---
1-1 数据压缩的一个基本问题是“我们要压缩什么”,对此你是怎样理解的?
答:数据压缩,就是不丢失有用信息的前提下,以最少的数码表示信号源发出的信息,减少容纳给定消息集合或数据采样集合的信号空间。
所谓的信号空间就是我们压缩的对象,即
(1)物理空间,如存储器和U盘等存储介质;
(2)时间空间,如传输给定消息集合需要的时间;
(3)频带空间,如传输给定消息集合需要的频带。
1-2 数据压缩的另一个基本问题是”为什么进行压缩“,对此你又是怎样理解的?
答:之所以需要数据压缩是因为人么一数字形式生成和利用是我信息越来越多,表示多媒体数据所需要的字节数可能非常庞大。
如果不进行数据压缩,就会导致传输或存储都很难实用化,使用了数据压缩就可以较快的传输各种信源,在现有通信干线上开通更多的并行业务,降低发射率,紧缩数据存储容量。
使用数据压缩就能减少存储空间,存储空间的减少就能提高传输效率和节省占用带宽。
还可减少数据的冗余。
1-6 数据压缩技术是如何分类的?
数 据 压 缩 |
冗余度压缩(熵编码) | 统计编码 | 霍夫曼编码、游程编码、二进制信源编码等 | |||
算术编码 | ||||||
基于字典的编码:LZW编码等 | ||||||
其他编码 | 完全可逆的小波分解+统计编码等 | |||||
熵压缩 | 特征抽取 | 分析/综合编码 | 子带、小波、分形、模型基等 | |||
其他 | ||||||
无记忆量化 | 均匀量化、Max量化、压扩量化等 | |||||
量化 | 有记忆量化 | 序列量化 | 预测编码 | 增量调制、线性预测、非线性预测、 | ||
自适应预测、运动补偿预测等 | ||||||
其他方法 | 序贯量化等 | |||||
分组量化 | 直接映射 | 矢量量化、神经网络、方块截尾等 | ||||
变化编码 | 正交变化:KLT、DCT、DFT、WHT等 | |||||
非正交变换 | ||||||
其他函数变换等 |
参考书(1.4)
2-1 用你的计算机上的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。
答:
一个497KB的pdb格式压缩后为72KB
一个5500KB的文件压缩后为4847KB
文件类型不同,压缩前的文件大小与压缩后的文件大小只比也就不同,有的文件压缩后变化不是甚至不会变化,有的文件压缩后文件会变小很多。
2-2 从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“This is the dog that belongs to my friend”中,删除is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?
答:不能就其冗余度做出定量论述。对于摘自不同来源的文字,重复度不一样。有一些单词会重复出现多次。冗余度它表征源信息率的多于程度,是描述信源客观统计特性的一个物理量。也可以说是从多余的一个量,它不影响数据的完整,也正是因为这一个多余量的存在,才能对其信源进行压缩,压缩后不会影响传递信息。信源=信息+冗余度。
三、参考书《数据压缩导论(第四版)》page30 3,5,7(a)
2.8项目与习题:
3.给定符号集A={a1,a2,a3,a4},求以下条件的一阶熵;
(a)p(a1)=p(a2)=p(a3)=p(a4)=1/4
H=2
(b)p(a1)=1/2,p(a2)=1/4,p(a3)=p(a4)=1/8
H=1.75
(c)p(a1)=0.505,p(a2)=1/4,p(a3)=1/8,p(a4)=0.12
H=1.745
5.考虑以下序列:
ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG
CTGAACCCGCTTAAGCTGAACCTTCTGAAGCTTAACCTGCTT
(a) 根据此序列估计各概率值,并计算这一序列的一阶熵。
(b) 根据这些熵,能否推断此序列具有什么样的结构?
答:(a)由题意:p(A)=1/4,p(T)=23/84,p(G)=4/21,p(C)=3/7
根据一阶熵的计算公式,即H=-1/4*log2 1/4-23/84*log2 23/84-4/21log2 4/23-3/7log2 3/7=1.98
(b)答:此序列呈均匀分布,由A/T/G/C四个基本元素组成
3-7 做一个实验,看看一个模型能够多么准确地描述一个信源。
(a) 编写一段程序,从包括26个字母的符号集{a,b,…,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的?