1多媒体及视讯技术
随着互联网的飞速发展,消费类电子、通信、影视及广播、计算机技术日益紧密地结合起来,使得基于互联网的多媒体产业成为本世纪初发展最快、规模最大的产业之一。
多媒体是建立在计算机图形学、人机接口技术、传感技术和人工智能等学科基础上的综合性极强的高新信息技术,由其带来的虚拟现实技术能创造身临其境的神奇效果,从而广泛应用于影视、广告、游戏、教育、会展等领域。2002年全球多媒体产业产值达300亿美元,今年将突破400亿美元。前不久,北京经济广播多媒体财经频道正式运行,实现了广播节目既可以听又可以看的多项全新的广播服务功能。北京经济广播的多媒体财经频道可以全天24小时不间断地提供全球的外汇市场的行情、报价、市场信息以及与外汇市场相关的国内国际重要财经新闻等信息,同时还可以使用节目中提供的“汇眼”市场分析软件,自己对市场进行分析,研判外汇市场的走势。从这个实际例子中也可以看到多媒体业务的大部分应用都与视讯技术相关。在中国市场,视讯技术主要应用于政府会议。
由于政府的工作性质和政府对提高办公效率的需求,这部分应用还会继续增加。另一方面,随着以联通、网通为代表的新电信运营商的崛起和企业内部基于IP的宽带基础网络的建设,把需要占用较多带宽的视频通讯应用到宽带网络上,将成为视讯技术加速发展的新动力。
2 视频压缩标准的发展
传统的压缩编码是建立在香农(Shannon)信息论基础上的,它以经典的集合论为基础,用统计概率模型来描述信源,但它未考虑信息接受者的主观特性及事件本身的具体含义、重要程度和引起的后果。因此,压缩编码的发展历程实际上是以香农信息论为出发点,一个不断完善的过程。
从不同角度考虑,数据压缩缩码具有不同的分类方式。
按信源的统计特性可分为预测编码、变换编码、矢量量化编码、子带-小波编码、神经网络编码方法等。
数眼的视觉特性可能基于方向滤波的图像编码、基于图像轮廓-纹理的编码方法等。
按图像传递的景物特性可分为分形编码、基于内容的编码方法等。
随着产业化活动的进一步开展,国际标准化组织于1986年、1998年先后成立了联合图片专家组JPEG和运动图像压缩编码组织MPEG。GPEG专家组主要致力于静态图像的帧内压缩编码标准ISO/IEC10918的制定;MPEG专家组主要致力于运动图像压缩编码标准的制定。经过专家组不懈的努力,基于第一代压缩编码方法(如预测编码、变换编码、熵编码及运动补偿等)的三种压缩编码国际标
2.1 视频技术
众所周知,人类通过视觉获取的信息量约占总信息量的70%,而且视频信息具有直观性、可信性等一系列优点。所以,视讯技术中的关键技术就是视频技术。
目前,视频技术的应用范围很广,如网上可视会议、网上可视电子商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。
但是,以上所有的应用都必须压缩。传输的数据量之大,单纯用扩大存储器容量、增加通信干线的传输速率的办法是不现实的,数据压缩技术是个行之有效的解决办法,通过数据压缩,可以把信息数据量压下来,以压缩形式存储、传输,既节约了存储空间,又提高了通信干线的传输效率,同时也可使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目。可见,多媒体数据压缩是非常必要的。由于多媒体声音、数据、视像等信源数据有极强的相关性,也就是说有大量的冗余信息。数据压缩可以将庞大数据中的冗余信息去掉(去除数据之间的相关性),保留相互独立的信息分量,因此,多媒体数据压缩是完全可以实现的。
图像编码方法可分为两代:第一代是基于数据统计,去掉的是数据冗余,称为低层压缩编码方法;第二代是基于内容,去掉的是内容冗余,其中基于对象(Object-Based)方法称为中层压缩编码方法,其中基于语义(Syntax-Based)方法称为高层压缩编码方法。
基于内容压缩编码方法代表新一代的压缩方法,也是目前最活跃的领域,最早是由瑞典的Forchheimer提出的,随后日本的Harashima等人也展示了不少研究成果。
2.2 运动估计和补偿
MPEG-4中提供了基于块的运动估计和补偿技术来有效地利用各个VOP中视频内容上的时间冗余。一般,运动估计和补偿可以看作针对任意形状图像序列的块匹配技术的延伸。块匹配过程对于标准宏块使用;预测误差和用于预测的宏块运动向量一起被编码;高级运动补偿模式支持重叠块运动补偿,可对8×8块运动向量进行编码。为了使运动估计得到高编码效率,预测图像和被预测图像越相似越好,所以在运动估计之前要先进行补偿。在目标边界上的MB先用水平填补而后用垂直填补,其余完全在VOP之外的MB用扩张填补。
2.3 纹理编码
纹理指的是I-VOP图像和P/B-VOP经运动补偿后残留的图像信息。纹理一般在变换域进行压缩编码和熵编码。
准正式编辑已经出版:静态图像压缩编码标准(JPEG);数字声像储存压缩编码标准(MPEG-1);通用视频图像压缩编码标准(MPEG-2)。
随后,MPEG专家组于1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且于2000年年初正式成为国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用普遍采用的统一数据格式,并根据不同的应用需求,现场配置解码器,开放的编码系统也可随时加入新的有效的算法模块。为支持对视频内容的访问,MPEG-4提出了“视频对象”的概念。
目前,MPEG专家组又推出了专门支持多媒体信息且基于内容检索的编码方案MPEG-7及多媒体框架标准MPEG-21。另外,由ITU-T和MPEG联合开发的新标准H.264是最新的视频编码算法。为了降低码率,获得尽可能更好图像质量,H.264标准吸取了MPEG-4的长处,具有更高的压缩比、更好的信道适应性,必将在数字视频的通信和存储领域得到广泛的应用,其发展潜力不可限量。
3 MPEG-4的主要技术
MPEG-4具有很多优点。它的压缩率可以超过100倍,而仍保有极佳的音质和画质;它可利用最少的数据,获取最佳的图像质量,满足低码率应用的需求;它更适合于交互式AV服务及远程监控。为了满足各种应用的需求,MPEG-4标准的使用范围相当庞大,具有广泛的适应性和可扩展性。
3.1 形状编码
形状信息的获得首先要对图形进行分析和分割,把各个代表不同内容的目标分割后再用形状表示。形状信息通常用二值Alpha平面和灰度Alpha平面来表示。二值Alpha平面可用临近信息进行算术编码(CAE);灰度Alpha平面可用运动补偿加DCT变换方式类似纹理编码一样进行编码。
其中用于图像压缩的变换有离散Forier变换(DFT)、离散小波变换(DWT)、奇异值分解(SVD)、K-L变换、Walsh变换、Hadamard变换、Harr变换、Slant变换、离散余弦变换(DCT)。其中K-L变换的去相关性最好,而DCT是接近K-L变换效果的最便于实现的变换。和MPEG-1/2一样,MPEG-4也选择了DCT。通常,用于数据压缩的熵编码方法有霍夫曼(Huffman)编码、矢量量化、算术编码、游程编码、LZW编码等。对于纹理编码,MPEG-4选择了把游程编码、矢量量化和Huffman编码进行混合编程编码(VLC)。纹理编码要经过DCT变换、量化、DC/AC预测、扫描、基于Hufman的VLC编码。
3.2 伸屈性
视频的伸屈性,包括空间伸屈性和时间伸屈性。空间伸屈性可以得到不同的空间分辨率,时间伸屈性可得到不同的时间分辨率。每种伸屈都有多层,在只有高低2层的情况下,底层指的是基本层,而高层指的是增强层。
3.3 差错回避
VLC码中的一个比特错误会引起同步丢失,而运动补偿则会引起错误传递。
MPEG-4的差错回避有三个方面:重同步、数据恢复和错误隐藏。
重同步,是指差错被检测后,解码器和码流之间重新同步的技术。一般来说,这种方法会将错误之前的同步点到重建的同步点之间的数据丢弃。不过这些丢弃的数据可以用其他的技术进行恢复和实施错误隐藏。
数据恢复工具在解码器和码流重新建立起同步后用来恢复丢弃的数据。这些工具不是简单的用容错码恢复,而是用一种差错回避手段,即用可逆VLC码字进行VLC编码。
错误隐藏,在重同步有效地将错误定位后可以很容易处理。为了进一步提高错误隐匿的能力,有必要增加错误定位能力,特别是数据分割可以用来提高错误定位能力。
4 结束语
随着经济的发展、通信技术的日益提高,客户已不仅仅满足于语音、电报、电子邮件等的通信方式,对视讯业务的需求呈迅猛发展的趋势。特别是美国“9・11"事件后,全球的视讯业务需求猛增。现有的视讯业务应用主要以政府部门会议为主,在远程教育、远程医疗以及商用方面的应用很少,而国外90%的企业都在使用视讯业务,已是“信息高速公路”的主体通信业务,因此市场潜力巨大。在视讯业务中使用的视频压缩技术,其发展和应用前景也是非常广阔的。