音视频基础知识

1. 比特率

比特率是指每秒传送的比特(bit)数。单位为bps(BitPerSecond)，比特率越高，传送的数据越大。比特率表示经过编码(压缩)后的音、视频数据每秒钟需要用多少个比特来表示，而比特就是二进制里面最小的单位，要么是0，要么是1。比特率与音、视频压缩的关系，简单的说就是比特率越高，音、视频的质量就越好，但编码后的文件就越大；假如比特率越少则情况恰好相反。

我们常见的16Bit（16比特），可以记录大概96分贝的动态范围。那么，您可以大概知道，每一个比特大约可以记录6分贝的声音。同理，20Bit可记录的动态范围大概就是120dB；24Bit就大概是144dB。假如，我们定义0dB为峰值，那么声音振幅以向下延伸计算，那么，CD音频可的动态范围就是“-96dB～0dB。”，依次类推，24Bit的HD-Audio高清音频的的动态范围就是“-144dB~0dB。”。由此可见，位深度较高时，有更大的动态范围可利用，可以记录更低电平的细节。

2. 码流

码流(Data Rate)是指视频文件在单位时间内使用的数据流量，也叫码率或码流率，通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分，一般我们用的单位是kb/s或者Mb/s。一般来说同样分辨率下，视频文件的码流越大，压缩比就越小，画面质量就越高。码流越大，说明单位时间内取样率越大，数据流，精度就越高，处理出来的文件就越接近原始文件，图像质量越好，画质越清晰，要求播放设备的解码能力也越高。

如何根据图片分辨率算码流大小？

例如：我们以1920x1080分辨率计算，图片格式为YUV420，帧率为30 FPS，那么码流大小为：1920*1080*(3/2)*8*30/(1024*1024) = 89 Mb/s，至于为什么乘以3/2那就和YUV420格式存储有关系了,乘8即将Byte转为bit，如果图片格式为RGB24即一帧图片大小为分辨率x3，如果是RGB32即一帧图片大小为分辨率x4。

3. 帧率

一帧就是一副静止的画面，连续的帧就形成动画，如电视图象等。我们通常说帧数，简单地说，就是在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次，通常用fps（Frames Per Second）表示。每一帧都是静止的图象，快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数 (fps) 愈多，所显示的动作就会愈流畅。

比如我们常见的听人说30帧，25帧，其实就是一秒刷新30或者25帧图片，一般帧率为25，人眼就已经很难察觉图像是不连续的或者影响观看效果了。

影响FPS值的主要因素就是显卡，一款好的独立显卡会对FPS的提升有着很大的作用。如果FPS值过低可以尝试通过调节一些游戏或者电脑参数来缓解如：降低游戏分辨率、开启垂直同步等等。

4. 分辨率

视频分辨率是指视频成像产品所成图像的大小或尺寸。常见的视像分辨率有352×288，176×144，640×480，1024×768。在成像的两组数字中，前者为图片长度，后者为图片的宽度，两者相乘得出的是图片的像素，长宽比一般为4：3. 　目前监控行业中主要使用Qcif(176×144）、CIF(352×288）、HALF D1(704×288）、D1(704×576）等几种分辨率。

5. 帧率、码流和分辨率之间的关系

帧率、码流与分辨率之间关系

公式:

带宽 / (码流 * 8) = 同时在线人数

文件大小 = 时间×码率/8

一个视频文件的大小为5.86M,播放时长为3分7秒:

1,该文件对应的码流就是

5.86 * 1024 * 1024 * 8 / (3 * 60 + 7) =262872.95657754bps

2,10M独享带宽能支撑的同时在线人数

10* 1024 * 1024 / 262872.95657754 =39.889078498294

3,支撑1000人同时在线的系统最少需要的带宽数为

262872* 1000 / (1024 * 1024) = 250.69427490234M

备注：流量速度单位换算

6. 视频会议中的AEC、AGC、ANS是什么？

l AGC是自动增益补偿功能（Automatic Gain Control），AGC可以自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。

l ANS是背景噪音抑制功能（Automatic Noise Suppression），ANS可探测出背景固定频率的杂音并消除背景噪音，例如：风扇、空调声自动滤除。呈现出与会者清晰的声音。

l AEC是回声消除器（Acoustic Echo Canceller）, AEC是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的，AEC还将话筒的输入与扬声器过去的值相比较，从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少，AEC可以消除各种延迟的回声

7.上行带宽和下行带宽

上行带宽就是本地上传信息到网络上的带宽。上行速率是指用户电脑向网络发送信息时的数据传输速率，比如用FTP上传文件到网上往，影响上传速度的就是“上行速率”。

下行带宽就是从网络上下载信息的带宽。下行速率是指用户电脑从网络下载信息时的数据传输速率，比如从FTP服务器上文件下载到用户电脑，影响下传速度的就是“下行速率”。

8.采样率

采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样率是指将模拟信号转换成数字信号时的采样频率，也就是单位时间内采样多少点。一个采样点数据有多少个比特。

我们人耳能听到的声音一般在20Hz~20KHz之间，根据奈奎斯特采样定理，采样频率fs大于信号中最高频率fmax的2倍时，采样之后的数字信号便能完整的反应真实信号。所以44.1KHz为常见的采样率。

人的发音器官发出的声音频率大约是80~3400Hz，但人说话的信号平率通常为300~3000Hz，人们把这种频率范围的信号称为话音（speech）信号。

采样率类似于动态影像的帧数，比如电影的采样率是24赫兹，PAL制式的采样率是25赫兹，NTSC制式的采样率是30赫兹。当我们把采样到的一个个静止画面再以采样率同样的速度回放时，看到的就是连续的画面。同样的道理，把以44.1kHZ采样率记录的CD以同样的速率播放时，就能听到连续的声音。显然，这个采样率越高，听到的声音和看到的图像就越连贯。当然，人的听觉和视觉器官能分辨的采样率是有限的，基本上高于44.1kHZ采样的声音，绝大部分人已经觉察不到其中的分别了。

而声音的位数就相当于画面的颜色数，表示每个取样的数据量，当然数据量越大，回放的声音越准确，不至于把开水壶的叫声和火车的鸣笛混淆。同样的道理，对于画面来说就是更清晰和准确，不至于把血和西红柿酱混淆。不过受人的器官的机能限制，16位的声音和24位的画面基本已经是普通人类的极限了，更高位数就只能靠仪器才能分辨出来了。比如电话就是3kHZ取样的7位声音，而CD是44.1kHZ取样的16位声音，所以CD就比电话更清楚。

9.采样位深

10.什么是回音
在一般的VOIP软件或视频会议系统中，假设我们只有A和B两个人在通话，首先，A的声音传给B，B然后用喇叭放出来，而这时B的MIC则会采集到喇叭放出来的声音，然后传回给A，如果这个传输的过程中时延足够大，A就会听到自己刚才说的话，这就是回音

什么是回音消除？
回音消除的作用就是在B端对B采集到的声音进行处理，把采集到的声音中包含的A的声音去掉之后在传给A，这样A就不会听到自己说过的话了。

回音的产生主要有两种原因：

1、

图中的男子说话，语音信号（speech1）传到女士所在的房间，由于空间的反射，形成回音speech1(Echo)重新从麦克风输入，同时叠加了女士的语音信号（speech2）。此时男子将会听到女士的声音叠加了自己的声音，影响了正常的通话质量。此时在女士所在房间应用回音抵消模块，可以抵消掉男子的回音，让男子只听到女士的声音。

2、由于2-4线转换引入的线路回音（见下图）

在ADSL Modem和交换机上都存在2-4线转换的电路，由于电路存在不匹配的问题，会有一部分的信号被反馈回来，形成了回音。如果在交换机侧不加回音抵消功能，打电话的人就会自己听到自己的声音

posted @ 2021-03-29 13:55 美女爱找茬阅读(1287) 评论(0) 收藏举报

刷新页面返回顶部

美女爱找茬

音视频基础知识