图像分类
resNet
目标检测
目标检测中,我们通常使用边界框(bounding box)来描述对象的空间位置
真实边界框(ground-truth bounding box)
锚框(anchor box 多尺度锚框
交并比(IoU)
非极大值抑制(non-maximum suppression,NMS)合并属于同一目标的类似的预测边界框
为图像生成多个锚框,再为这些锚框一一预测类别和偏移量--非极大值抑制预测边界框
feature map 特征图(fmap)上生成锚框(anchors)
one-stage和two-stage
二阶段: 第一阶段提取感兴趣的区域,第二阶段进行分类和定位
retinanet
RetinaNet的主要创新点在于其focal loss,该损失解决了大多数目标检测数据集中存在的类别不平衡问题
RetinaNet采用了经典的Backbone+Neck+Head单阶段网络结构,
Backbone负责提取图像的特征,Neck负责增强或融合特征(如通过多尺度处理),而Head则根据任务需求生成最终的输出结果(如类别、边界框或掩膜)
其中Backbone采用Resnet,
Neck采用FPN, 特征金字塔网络(FPN)架构
Head部分由分类子网络(class subnet)和框回归子网络(box subnet)组成
一阶段检测算法:如YOLO和SSD
torchvision/models/detection/ssd.py
https:
图像分割
图像分割(image segmentation)和实例分割(instance segmentation
前景背景分割: 1表示前景,0表示背景
语义分割 Semantic
实例分割也叫同时检测并分割(simultaneous detection and segmentation
全景分割:结合语义分割和实例分割,提供像素级的类别和实例标签,实现全面的场景理解-将背景也作为分类
,标签图像(即“mask”或“ground truth”图像)通常是一张灰度图
Segmentation Mask(分割掩码)
2023-04-06 Meta AI发布了Segment Anything Model(SAM)
Vit--图像分类
是基于transformer结构的cv网络 一开始就捕捉全局上下文的能力
torchvision/models/vision_transformer.py
ViT模型利用Transformer模型在处理上下文语义信息的优势,将图像转换为一种“变种词向量”然后进行处理
ViT结构主要包括Patch Embedding、Position Embedding(位置编码)、Transformer Encoder与MLP Head
Transformer在CV领域通用的backbone
NLP领域的词嵌入(Word Embedding),ViT采用了(Patch Embedding)
目标检测
DETR(Detection Transformer)
用于目标检测和全景分割。这是第一个将Transformer成功整合为检测pipeline中心构建块的目标检测框架。
从通用任务和可提示分割两个方向
由三个主要部分组成:用于特征提取的CNN后端(ResNet)、transformer编码器-解码器和用于最终检测预测的前馈网络(FFN)
自动驾驶
BEV+Transformer方案可以将静态道路信息与动态道路信息统一到了同一个坐标系下,通过实时感知与转换,在行驶中即可实时生成“活地图”
VLA
OpenVLA 模型
OCC
动态-静态-OCC
多模态
CLIP模型(Contrastive Language-Image Pretraining)
大模型时代
ChatGLM系列、Qwen系列、Llama系列
Deepseek
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· 【.NET】调用本地 Deepseek 模型
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
2023-02-13 Pytorch_人脸检测