CVPR09-ScSPM文章笔记--Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification
支持向量机方法的目标是学习决策函数:
z是基于描述符编码的某种统计数据得到的特征向量。z的求解需要用到聚类标识符U=[u1,…,uM]T,通过pooling function z=F(U)得到。
这其中有三个问题:
1. U的求解
使用Sparse Coding方法取代Vector Quantization方法对SIFT特征进行编码,优化问题是:
这样做的好处:1,SC约束宽松一些,因而有更低的重建误差;2,稀疏性可捕捉更显著的特征;3,图像块是稀疏信号
2. Pooling function的选择
使用max pooling取代averaging function得到z,函数定义为:
这是建立在视觉特征上的,并通过连结图像不同位置与不同分辨率的空间塔式表示得到特征向量z。
3. k( , )的选择
因而决策函数变为:
文章给出了Sparse Coding和Multi-class Linear SVM的实现方法。