Computer vision 计算机视觉、3D reconstruction 三维重建(深入浅出SfM与SLAM核心算法) 北京邮电大学 鲁鹏
计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)
A01.计算机视觉基础
前言
Definition
图像→感知设备(眼睛/摄像头)→解释器(大脑/笔记本电脑)→解释(花园、树、水……)
History
David Marr
1.计算理论
计算的目的?这个问题已知的或可施加的约束是?
2.表达和算法
输入、输出和中间信息如何表达?
用哪些算法可以计算期望的结果?
3.硬件实现
表达和算法如何映射到实际硬件(生物视觉系统或特殊硅片上?)
硬件约束怎样用于指导和表达算法选择?
(现代问题:计算机视觉中用图形芯片和多核结构日益增长,上面的硬件实现问题也变得重要)
视觉表达三阶段
Input Image: Perceived intensities
↓
Primal Sketch [边缘图]: Zero crossings,blobs,edges,bars,ends,virtual lines,groups,curves,boundaries
↓
2 1/2-D Sketch [2 1/2-D简图]: Local surface orientation and discontinuities in depth and in surface orientation
↓
3-D Model Representation [3-D模型]: 3-D models hierarchically organized in terms of surface and volumetric primitives
视觉识别中与图像分类任务相关的任务
图像分类
图像分类任务、机器学习所涉及的基础概念以及系统设计的基本范式、线性分类器、全连接神经网络、卷积神经网络、经典网络结构解析、神经网络可视化
目标检测
图像检测任务分析、评价指标、二阶段检测网络、一阶段检测网络
图像分割
图像分割任务分析、评价指标、语义分割网络、实例分割网络
图像描述
循环神经网络、LSTM、注意力机制
图像生成
深度生成网络(PixelCNN\PixelRNN、变分自编码网络、生成对抗网络)
视觉识别任务 the best practice:卷积神经网络
深度学习三要素
1.算法
2.数据
3.算力
深度网络结构
全连接神经网络、卷积神经网络、循环神经网络、变分自编码网络、生成对抗网络etc.
图像分类任务
数据驱动的图像分类
1.数据集构建
2.分类器设计和学习
3.分类器决策
分类器设计与学习
1.图像表示
- 像素表示
- 全局特征表示(如GIST)
- 局部特征表示(如SIFT特征+词袋模型)
2.分类器 - 近邻分类器
- 贝叶斯分类器
- 线性分类器
- 支撑向量机分类器
- 神经网络分类器
- 随机森林
- Adaboost
3.损失函数 - 0-1损失
- 多类支撑向量机损失
- 交叉熵损失
- L1损失
- L2损失
4.优化方法
一阶方法 - 梯度下降
- 随机梯度下降
- 小批量随机梯度下降
二阶方法 - 牛顿法
- BFGS
- L-BFGS
训练过程 - 数据集划分
- 数据预处理
- 数据增强
- 欠拟合与过拟合
-
- 减小算法复杂度
-
- 使用权重正则项
-
- 使用droput正则化
- 超参数调整
- 模型集成