张翠的第一次作业

一、教材

1-1 数据压缩的一个基本问题是“我们要压缩什么”,对此你有怎样理解的?

      解答:随着社会的发展,人类也随之进入了信息时代。然而,大量的数据占据了大量的空间,从而我们便会想办法将大数据变成小数据,那么,在这个过程中我们需要压缩什么呢?我们要压缩的是信号空间,即某信号集合所占的空域、时域和频域空间。减少存储空间便意味着传输效率的提高和占用带宽的节省,此外,通信时间、传输带宽、存储空间甚至发射能量都可以成为我们压缩的对象。我们是要把大数据压缩成小数据以便人们的使用,方便信息的交流与传播。

1-2 数据压缩的另一个基本问题是“为什么进行压缩”,对此你又是怎样理解的?

      解答:“为什么进行压缩”对此我的理解是:进行数据压缩有很大的必要性,同时也有许多的好处,比如:1)可以降低各种信道的占有费用;2)在同一通信干线上电视、电话等设备可以同时运行;3)可以降低存储费用。如果没有压缩,很多服务以及应用变不可行,费用还会很昂贵,不利于人们的使用;如果没有压缩,则传输和存储都会很难实现,会造成数据冗余,从而,压缩是很有必要的。

1-6 数据压缩技术是如何分类的?

     解答:数据压缩技术可分为无损压缩和有损压缩。其中无损压缩是指利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真。有损压缩则是指利用人类对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息。有损压缩广泛应用于语音,图像和视频数据的压缩。

 二、参考书

P8

1.4

1.用你的计算机的压缩工具来压缩不同文件。研究原文件的大小和类型对于压缩文件与原文件大小之比的影响。

      压缩比即压缩前每个信源符号的编码位数与压缩后平均每符号的编码位数之比。一般字符文件的压缩比较高可以达到50%左右。视频,音频,图像文件,压缩比一般达到80%左右。有的图像文件如.JPG格式的,本来就是带压缩的,再用rar等工具压缩的效果不明显。如果是.BMP文件,压缩效果也会不错

2.从一本通俗杂志中摘录几段文字,并删除所有不会影响理解的文字,实现压缩。例如,在“this is the dog that belongs to my friend”中,删除 is、the、that和to之后,仍然能传递相同的意思。用被删除的单词数与原文本的总单词数之比来衡量文本中的冗余度。用一本技术期刊中的文字来重复这一试验。对于摘自不同来源的文字,我们能否就其冗余度做出定量论述?

      冗余度,通俗的讲就是数据的重复度。它是一个数据集合中重复的数据,也是在数据传输中,由于衰减或干扰会使数据代码发生突变。

P30

3.给定符号集A={a1,a2,a3,a4},求以下条件下的一阶熵:

  (a)P(a1)=P(a2)=P(a3)=P(a4)=1/4

   (b)  P(a1)=1/2,P(a2)=1/4,P(a3)=P(a4)=1/8

   (c)  P(a1)=0.505,P(a2)=1/4,P(a3)=1/8,P(a4)=0.12

解答:

   (a)H=1/4*log24 * 4=2

   (b)H=1/2*log22 +1/4*log24+1/8 *log28+ 1/8 *log28=1/2+1/2+3/8*2

                                                                                  =7/4

  (c)H=0.505*log2200/101+1/4*log24+1/8 *log28+0.12*log225/3=1.8672

5、考虑以下序列:

                     ATGCTTAACGTGCTTAACCTGAAGCTTCCGCTGAAGAACCTG

                     CTGAACCCGCTTAAGCTGAACCTTCTGAAGCTTAACCTGVTT

  (a)根据此序列估计各概率值,并计算这一序列的一阶熵。

       解答:该序列共有84个字母,则

                P(A)=21/84             P(C)=23/84

                P(G)=16/84                P(T)=23/84     P(V)=1/84

                H=21/84 * log24 +23/84*log284/23*2+16/84*log284/16+1/84*log284/1  =0.5+1.024+0.455+0.076=2.055

7、做一个实验,看看一个模型能够多么准确地描述一个信源。

   (a)编写一段程序,从包括26个字母的符号集{a,b,...,z}中随机选择字母,组成100个四字母单词,这些单词中有多少是有意义的

 

#include<stdio.h>
#include<stdlib.h>
#include<time.h>
int main()
{
    char a[26];
    int j,t;
    srand(time(NULL));
    for(int i=0;i<26;i++)
    {
        a[i]=i+97;
    }
    for(i=0;i<100;i++)
    {
       for(j=0;j<4;j++)
        {
           t=rand()%26;
           printf("%c",a[t]);
         }
      printf("\t\t");
    }
return 0 ;
}

单词中有5是有意义的.

posted @ 2015-09-06 10:50  Liz123  阅读(174)  评论(0编辑  收藏  举报