5-图像处理与深度学习-读书笔记
本笔记根据PaddlePaddlePPT中第5章内容整理总结。
- 概述
1.1 图像识别目标
1.2 图像识别挑战
l 语义鸿沟(Semantic Gap)现象:图像的底层视觉特性和高层语义概念间的鸿沟
1.3 图像识别基本框架
测量空间特征空间类别空间
- 传统图像识别技术
2.1 早期图像识别技术(1990-2003)
2.1.1 特征提取
l 全局特征提取:用全局的视觉底层特性统计量表示图像
图片被表示成向量:原图片向量空间映射向量表示
l 全局特征示例:颜色特征、纹理特征、形状特征
l 特征变换:提高特征表示性能
l 流形学习(Manifold Learning):高维数据映射为低维空间下的向量表示
l 简单特征变换:中心化、归一化、去相关、白化
2.1.2 索引技术
2.1.3 相关反馈
2.1.4 重排序
2.2 中期图像识别技术(2003-2012)
2.2.1 特征提取
l 局部特征(Local Feature):图像区块(Patch)的向量
l 特征检测子(Feature Detector):检测图像区块中心位置(interest points)
l 特征描述子(Feature Desciptor):描述区块的视觉内容
l 局部检测子:Harris,DoG,SURF,Harris-Affine,Hessian-Affine,MSER
l 局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE
2.2.2 向量化
l 局部特征转化为视觉关键词(即特征量化,Feature Quantization):查找视觉关键词,转化局部特征向量为关键词序号
l 常用特征量化技术:Hierarchical 1-NN、KD-tree
l 基于视觉关键词的图像表示:
图像局部特征视觉词袋→视觉关键词直方图
2.2.3 索引技术
l 倒排索引
l 排序:tf-IDF加权(Term frequency-inverse document frequency)
2.2.4 后处理
l 查询扩展:使原有查询项含更多局部特征,再进行扩展查询
l 其他后处理技术:局部几何验证(Local Geometric Verification)、乘积量化(Product Quantization)
- 深度学习与图像识别
3.1 深度学习发展历程
l 深度学习在图像领域的应用:图片检索、识别异常的肿瘤、图片描述、图片着色
3.2 为什么使用深度学习
l 人脑视觉机理:1)视感觉阶段-信息采集 2)视知觉阶段-信息认知
l 神经-中枢-大脑:原始信号摄入(像素)-初步处理(边缘、方向)-抽象(形状)-进一步抽象(具体物体)
3.3 如何使用深度学习
3.3.1 如何使用深度学习解决图像识别
l 使用机器学习(深度学习)的目的:寻找一个合适的函数
3.3.2 使用步骤:建立模型(人)、损失函数(人)、参数学习(机器)
3.3.3 建立模型
l 常用激活函数:Sigmoid、TanH、ArcTan、ReLU、PReLU
l 前置神经网络:输入层→隐藏层→输出层
l 模型例子:AlexNet、VGG、GoogleNet、Residual Net
l 输出层:softmax函数作为输出层激活函数,易理解好计算
l 设置合适的网络结构:层数、节点个数、激活函数
3.3.4 损失函数
l 常用损失函数:平方损失函数、交叉熵损失函数
l 总损失:
3.3.5 参数学习
l 梯度下降:
l 反向传播算法:链式法则
- 课程实践
l 人脸识别