2023-2-2-openMMLab AI实战营 笔记(二)
计算机视觉之图像分类算法基础
一、图像分类与基础视觉模型
基础介绍:
图像分类:给一张图片,识别图片中的物体是什么
计算机难以通过简单代码实现,使用“学习”。——采集数据、定义模型、训练、预测
早期使用特征工程,之后深度学习
卷积神经网络:
alexNet:
VGG:
GoogLeNet:
模型越来越深,准确率适得其反。
残差学习:解决之前的考虑。残差可以使网络更深,参数
ResNet:
ResNet的影响:视觉领域影响力最大、使用最广泛的模型,获得CVPR2016最佳论文奖
更强的图像分类模型:
神经结构搜索 Neural Architecture Search(2016+)
Transformers(2020+):
ConvNeXt(2022):
轻量化卷积神经网络:
(小网络)
卷积的参数量:
卷积的计算量:
降低参数量和计算量的方法:
降低通道数
减少卷积核的大小
GoogLeNet使用不同大小的卷积核:
ResNet使用1×1卷积压缩通道数:
可分离卷积:
MobileNet V1/V2/V3(2017~2019):
ResNeXt中的分组卷积:
Vision Transfromers:
模型学习:
模型学习的范式:
目标:确定模型Fx的具体形式后,找寻最优参数x’,是的模型Fx'(X)给出准确的分类结果P
(y|X)
范式一:监督学习——数据标注
范式二:自监督学习——不需要标注数据
监督学习:
流程:标注数据-定义损失函数-最优化
交叉熵函数 Cross-Entropy Loss:
优化目标&随机梯度下降:
动量 Momentum SGD:
基于梯度下降训练神经网络的整体流程:
训练技巧:
学习率与优化器策略:
权重初始化(随机初始化):
学习率对训练的影响:
学习率策略:
数据增强:
数据表较少时,需要扩充数据集
数据增强:通过简单的变换产生一系列副本,比如几何变换、色彩变幻、随机遮挡。。
模型相关策略:
自监督学习:
基于代理任务:https://zhuanlan.zhihu.com/p/150224914
基于代理任务:
基于对比学习:
基于掩码学习: