H.264和MPEG-4、分辨率和实时性的基本认识
h.264 和 mpeg-4 的关系:
h.264 /avc ( advanced video coding )标准,是 mpeg-4 的第 10 部分。
mpeg-4的初衷是将dvd质量的图像码流从每秒6兆降低到1.5兆,将高清电视的码流从每秒几十兆降低到6~8兆。要实现这样的编码压缩水平,就要用到一种叫avc(advanced video codec)的技术。国际电联(itu)将这项技术命名为h.264标准,mpeg 把这项技术放到mpeg-4标准里的第10章(part 10)。这就是mpeg-4和h.264的关系。
h.264/avc是由iso/iec与itu-t组成的联合视频组(jvt)制定的新一代视频压缩编码标准,于2003年5月完成制订。相对于先前的标准,h.264/avc无论在压缩效率、还是在网络适应性方面都有明显的提高,因此,业界普遍预测其将在未来的视频应用中替代现有的视频压缩标准。
但是,h.264/avc标准由于对视频源的限制,仅支持娱乐级视频质量。为了进一步扩大其应用范围,使其适应高保真视频压缩的应用,jvt于2004年7月对h.264/avc做了重要的补充扩展,称为frext(fidelity range extensions)。
h.264/avc标准第一版支持的源图像为每象素8b,且采样方式仅限于4∶2∶0;而新近扩展的frext部分则扩大了标准的应用范围,如专业级的视频应用、高分辨率/高保真的视频压缩等。frext对h.264/avc的改善主要在:(1)进一步引入一些先进的编码工具,提高了压缩效率;(2)视频源的每个样值均可超过8b,最高可达12b;(3)增加了4∶2∶2与4∶4∶4的采样格式;(4)更高的比特率,更高的图像分辨率;(5)可达到图像高保真的要求,支持无损压缩;(6)支持rgb格式的压缩,同时避免了色度空间转换的舍入误差。
mpeg-4 visual (mpeg-4 part 2)与h.264 (mpeg-4 part 10)均为新一代多媒体通讯压缩与解压缩国际标准。其中mpeg-4目前作为消费性电子核心技术正处于市场导入期。如目前利润最高的高端smart phone多带有动态影音摄影的功能,其压缩标准主流即为mpeg-4 visual。此外3g(第三代行动电话)手机所支持的影音功能亦多包含mpeg-4 visual编解码功能。多媒体播放器的顶端产品(注:ipod属中阶产品)目前非pmp (portable media player)莫属,单价高达2k~6k¥的系统均需包含mpeg-4 visual的播放功能。下一代的pmp将进一步结合数字相机与摄影机的功能达到全功能实时多媒体摄、录、放与传输的需求。当然mpeg-4 visual还是扮演核心与关键技术角色。h.264整合iso/iec与itu-t两大标准阵营,制定mpeg-4 visual的下一代影音压缩标准。目的在进一步提高自然影像的压缩率,且在通讯环境变化时亦能确保一定的影音品质,是下一代数字电视的编解码标准。h.264为达成上述目的,采用多项创新技术(亦使h.264与mpeg-1/-2/-4 visual不兼容),故软硬件设计上与mpeg-4 visual炯异。而重要的是h.264将应用在3g行动通讯之上。故h.264为下一代3c产品的杀手级核心技术。
通常所说h.264和mpeg4的比较是指h.264和mpeg-4 part 2 advanced simple profile (asp)的比较而言
分辨率和实时性术语:
完全实时:pal=25f/s、ntsc=30f/s
基本实时(准实时):pal:8~15f/s ntsc:10~17f/s
非实时:pal<8f/s ntsc<10f/s
cif (352 x 240 ntsc, 352 x 288 pal)
qcif=cif*1/4=176*120 ntsc,176*144 pal
fd1(d1)=4*cif=704*480 ntsc,704*576 pal
hd1(half-d1)=d1*1/2=704*240 ntsc,704*288 pal
d1为480i格式,和ntsc模拟电视清晰度相同
d2为480p格式,和逐行扫描dvd规格相同,dvd的分辨率为480p,也就是720x480(ntsc)720x576(pal)
d3为1080i格式,分辨率为1920×1080 i/60hz
d4为 720p格式,分辨率为1280×720 p/60hz
d5为1080p格式,分辨率为1920×1080逐行扫描,专业格式
专利费问题:
在专利许可政策上,h.264 也吸取了mpeg2 及mpeg4 part2 的经验和教训,推出了较之前标准更低和操作性更强的许可政策。例如,avc 许可政策每台产品0.20 美元的收费,与mpeg-2 每个终端收费4-6美元(2002 年前)和2.5 美元(2002 年之后)相比,降价幅度超过一个数量级。而其相比于mpeg4 part2,除了取消了按编解码时间收费(2 美分/小时)以外,也降低了对于内容的收费,从而受到了更多机构、企业和运营商的欢迎。
基础知识:
h.264 标准压缩系统由视频编码层( vcl )和网络提取层( network abstraction layer , nal )两部分组成。 vcl 中包括 vcl 编码器与 vcl 解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。 nal 则用于为 vcl 提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。vcl 可以传输按当前的网络情况调整的编码参数。
h.264 和 h.261 、 h.263 一样,也是采用 dct 变换编码加 dpcm 的差分编码,即混合编码结构。同时,
h.264 在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。
h.264 没有繁琐的选项,而是力求简洁的 “ 回归基本 ” ,它具有比 h.263++ 更好的压缩性能,又具有适应多种信道的能力。
h.264 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。
h.264 的基本系统无需使用版权,具有开放的性质,能很好地适应 ip 和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。
新的快速运动估值算法 umhexagons (中国专利)是一种运算量相对于 h.264 中原有的快速全搜索算法可节约 90 %以上的新算法,全名叫 “ 非对称十字型多层次六边形格点搜索算法 ” ( unsymmetrical-cross muti-hexagon search ) ” ,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好