视频质量评估
主观质量评价
视频主观质量评价需要选定一批非专家类型的受测者,让他们在一个受控的环境下连续观看一系列的测试序列,时长大约10-30分钟,然后采用各种统计方法让受测者对视频序列的质量进行评分,最后得到视频质量平均分(Mean Opinion Score, MOS)。受控环境包括:观看距离、观测环境、测试视频内容的选择、测试视频的显示时间间隔等。由于视频的主观质量评价需要依靠大量的人力,并且为了保证尽可能少的由于人为因素的不确定性对最终视频的得分产生影响,需要制定详细的统一的标准,不断的交流和讨论,测试效率比较低而且成本很大,故主观评估算法不在本文讨论的范围之内。
客观质量评价
视频质量客观评价是利用特定的评估模型来自动计算视频质量。与主观评估方法相比,客观评价方法具有速度快、费用低、易于实现、自动实时监控等优点。
客观质量评价分类:根据降阶视频与其相对应原始参考视频的需要程度,可以把客观质量评价方法分为三类:全参考视频质量评价方法、部分参考视频质量评价方法和无参考视频质量评价方法。
1)全参考(Full-Reference)视频质量评价方法
全参考视频评价方法必须完整提供原始参考视频和在终端屏幕上显示的降阶视频。评价模型如下所示:
原始视频-------视频编码------信道------视频解码------评价结果
这种评价方法适用于对视频编解码系统的性能测试、对比已经优化的场景。原始参考视频可以提供大量的参考信息,有助于建立评估失真视频质量的客观模型。
2)部分参考(Partial-Reference)视频质量评价方法
部分参考视频评价方法是指在做视频评价的时候没有原始参考视频的完整像素信息,只由原始视频的特征数据表达信息,因此只能把待评估的视频加上同样的特征表达方式得到特征数据并将两者的特征数据进行 对比来判断待测视频的质量。
一般来说,当特征表达数据所容许的数据量越大时,对原始视频的表达越准确,评分也更准确一些。但事实上,在得不到原始视频的场合中,能够允许的特征表达数据量不是很大,因此部分参考的模型受限于特征模型提取的准确度,在测试精确度上差于全参考模型。
3)无参考(Non-Reference)视频质量评价方法
无参考方法不需要提供任何原始视频信息,所有的评价都是基于捕获的降阶视频来处理的。目前大多数的无参考方法是通过对视频的处理和分析提取视频序列中出现的某些失真特征,然后根据各类失真特征来判定视频的质量。由于不需要参考视频,所以无参考模型更适合对视频质量做实时评估,如流媒体点播类的业务。
无参考视频质量评价方法------NIQE视频算法
全参考度量:
·DMOS:美国著名德克萨斯大学MS-SSIM算法,与人眼主观评分近似度高达94%
·JND(PQR):美国著名音视频研究实验室Sarnoff,与人眼主观评分近似度达92%
·PSNR:峰值信噪比,视频质量测试常规算法
无参考度量:
·Spatial:ITU-T P.910空间域测试
·Temporal:ITU-T P.910时间域测试
主观质量度量:
·PEAQ:遵循ITU-R BS.1387和BS.1116,客观度量音频感知质量客观质量度量
·aFREQ:音频频率一致性测试,度量音频中的误差,毫秒级唇音同步测试
无参考度量:
·APEAK:基于通道True-Peak音频测量,遵循ITU-R BS.1770-3标准
·LKFS:节目音频响度测量,遵循ITU-R BS.1770-3标准
信噪比(SNR)与峰值信噪比(PSNR)的差异。
PSNR是使用最广泛的客观视频质量的度量方法,但由于人类视觉系统的非线性,因此PSNR值与人眼感受到的视频质量仍有较大出入。
新的评估方法:
UQI、VQM、PEVQ、结构相似性(SSIM)、VQuad-HD与CZD、Netflix 开源评估算法VMAF。
概念:
一个客观的视频质量指标的表现由计算客观分数与主观(Subjective_video_quality)测试分数之间的相关性得出。
主观(Subjective_video_quality)测试分数, 平均意见得分(Mean_Opinion_Score,MOS)。
最常用的相关系数有:[相关|线性相关系数]、斯皮尔曼等级相关系数、峰度、Kappa系数与离群率。