OpenCV视频防抖技术解析

视频防抖有很多种技术，各有优劣，主流的目前分为三种：

EIS电子防抖
EIS电子防抖是通过软件算法实现防抖的。其技术运作原理是通过加速度传感器和陀螺仪模块侦测手机抖动的幅度，从而来动态调节整ISO、快门以及成像算法来做模糊修正。

优点：成本低
缺点：画面会被裁切，牺牲图像分辨率

OIS光学防抖
OIS光学防抖是通过处理器、陀螺仪和相机防抖模组之间的配合，在拍照抖动时用以驱动防抖组件快速向抖动的相反方向移动镜头模组，由此来抵消发生的抖动，进而实现最终的稳定成像。

优点：画面不会被裁切，原生画质图像效果最好
缺点：成本较高、镜头非常容易损坏、镜头无法做小

AIS智能防抖
AIS防抖是一种基于人工智能的图像防抖技术，可以在相机拍摄过程中，减少因为手抖动造成的画面模糊，获得更加稳定，清晰的画面。即使在拍摄视频或者拍摄夜景时，也可取得良好的防抖效果。

优点：健壮性可以做到很强
缺点：性能低、尚未普及

本文主要讨论的是最AIS智能防抖的基础部分，不涉及到AI的部分，而只是最原始的基于图像特征点抖动检测加以纠偏的防抖技术。

第一步：对每一帧（逐帧）图像做角点检测，又称为关键点检测。也就是将图像上所有的关键点角点识别出来。

如下图所示，蓝色圈出来的部分，就是图像上的关键点。

关键点检测有很多种算法：

1. FAST

2. Agast

3. GFTT

4. SimpleBlob

5. Affine

6. SIFT

7. BRISK

8. ORB

9. MSER

10. KAZE

11. AKAZE

第二步：逐一将前后两帧的角点（关键点）做比对，计算出两两之间的向量差（仿射变换）。

如下图红色箭头所示方向，既是两帧相比对得到的向量方向。

先使用OpenCV里的光流法函数 calcOpticalFlowPyrLK() 函数得到前后得到当前帧相对上一帧的所有关键点变化信息。

再使用OpenCV里的 estimateRigidTransform() 函数传入上一个函数的两帧的结果，可以挑选出前后两帧两个2D点集矩阵之间的最佳仿射变换。

第三步：将第二步算出的最佳仿射变换矩阵数据的整体平均方向，套用低通滤波或者高斯滤波，抹平突变的波峰波谷。

在OpenCV里面还分成单程稳定器（OnePassStabilizer）和双程稳定器（TwoPassStabilizer），

且支持设置两种滤波方式：低通滤波（LpMotionStabilizer）和高斯滤波（GaussianMotionFilter）。

如下图所示，

横坐标是时间轴，纵坐标轴是视频基于第一帧的画面的水平方向变化的像素位移量。

实线是实际根据光流法计算出来的像素位移量。

虚线是使用高斯滤波抹平后的相对较为稳定的像素位移量。

第四步，使用均值滤波抹平之后的仿射变换矩阵数据对视频帧进行图像变换（缩放、旋转、平移等全放射变换）和裁切。

在OpenCV里面使用invertAffineTransform() 和 warpAffine()直接对图像进行仿射变换，得到变换后的图像结果。

比如说视频这一帧，有检测到明显的左移倾向，那么会调用仿射变换，将原视频帧变成下图这样：

第五步，将裁切后的视频resize回原视频的大小。

此步骤涉及到多种BorderMode（边界模式）：

1. CONSTANT

2. REPLICATE

3. REFLECT

4. WRAP

5. REFLECT_101

6. TRANSPARENT

至于各自有什么差异无非就是各种填充方式有差异，有些是镜面反射，有些是透明，有些是纯黑色，自行去看OpenCV的文档，一般最常见的是REPLICATE Mode。

所有OpenCV中实现视频防抖可能涉及到的参数或类别：

运动估计器：
　　1. MotionEstimatorL1 描述最小化 L1 误差的全局 2D 运动估计方法。
　　2. MotionEstimatorRansacL2 描述了一种稳健的基于 RANSAC 的全局 2D 运动估计方法，可最大限度地减少 L2 误差。

角点检测器：
　　1. FAST
　　2. Agast
　　3. GFTT
　　4. SimpleBlob
　　5. Affine
　　6. SIFT
　　7. BRISK
　　8. ORB
　　9. MSER
　　10. KAZE
　　11. AKAZE

平滑滤波方法：
　　1. GaussianMotionFilter 高斯滤波
　　2. LpMotionStabilizer 低通滤波

高斯滤波半径：
　　gaussian radius，也就是做滤波时参考左右多少帧的图像变换数据。

稳定器：
　　1. OnePassStabilizer 一程稳定器，仅顺向，适合处理实时的视频
　　2. TwoPassStabilizer 双程稳定器，双向，且首先会遍历一遍视频所有的帧，实测始终有问题

裁切视频比例：
　　trim ratio，防抖会裁切到视频边界的最大比例。

边界模式：
　　BorderTypes，枚举，代表对原视频帧图像进行了矩阵变换之后，边边角角的那些画面应该用什么颜色来填充的问题。
　　1. BORDER_CONSTANT
　　2. BORDER_REPLICATE
　　3. BORDER_REFLECT
　　4. BORDER_WRAP
　　5. BORDER_REFLECT_101
　　6. BORDER_TRANSPARENT
　　7. BORDER_REFLECT101
　　8. BORDER_DEFAULT
　　9. BORDER_ISOLATED

异常值拒绝器：
　　1. NullOutlierRejector 不设置异常拒绝值
　　2. TranslationBasedLocalOutlierRejector 基于转换的局部异常值拒绝器，可以设置单元格多少和Ransac的参数

运动模型：
    1. MM_TRANSLATION（平移）
    2. MM_TRANSLATION_AND_SCALE（平移 + 缩放）
    3. MM_ROTATION（旋转）
    4. MM_RIGID 刚体变换(欧式变换)（平移 + 旋转）
    5. MM_SIMILARITY 相似变换（刚体 + 缩放）
    6. MM_AFFINE 仿射变换（线性 + 平移）
    7. MM_HOMOGRAPHY 单应变换（透视变换、射影变换）
    8. MM_UNKNOWN 未知

注：线性变换包括：平移（Translation）、缩放（Scale）、翻转（Mirror/Flip）、旋转（Rotation）和剪切（Shear），但平移不是线性变换。

刚体变换的英文全称是：rigid transformation (also called Euclidean transformation or Euclidean isometry)

https://en.wikipedia.org/wiki/Rigid_transformation

相似变换：Similarity transformation

https://en.wikipedia.org/wiki/Similarity_(geometry)

仿射变换：Affine transformation

https://en.wikipedia.org/wiki/Affine_transformation

透视变换：homography (also called transformation projectivity, projective transformation, or projective collineation)

https://en.wikipedia.org/wiki/Homography

感谢无法抗拒189纠正运动模型的翻译问题

还可以参考：

多视图几何——变换层次总结（射影变换，仿射变换，相似变换，欧式变换）