随笔分类 - 深度学习
深度学习笔记
摘要:跨空间学习的高效多尺度注意模块 摘要 在各种计算机视觉任务中,通道或空间注意机制在产生更多可识别的特征表示方面具有显著的有效性。然而,通过通道降维来建模跨通道关系可能会对提取深度视觉表征带来副作用。 本文提出了一种新型的高效多尺度注意力(EMA)模块。为了保留每个通道上的信息和减少计算开销,我们将部
阅读全文
摘要:SCConv:用于特征冗余的空间和通道重建卷积 摘要 卷积神经网络(CNN)在各种计算机视觉任务中取得了显着的性能,但这是以巨大的计算资源为代价的,部分原因是卷积层提取了冗余特征。最近的工作要么压缩训练有素的大型模型,要么探索精心设计的轻量级模型。在本文中,我们尝试利用特征之间的空间和通道冗余进行
阅读全文
摘要:注意力机制 一、注意力机制 人可以通过眼睛看到各种各样的事物,感知世界上的大量信息,但可以让自己免受海量信息的干扰,可以选择重要信息而忽视不重要信息。 例如一张图片,我们会把下意识把注意力集中在主体身上,而非背景。 同样,希望网络也具有这种能力,引入注意力机制是对输入进行加权再输出,希望网络关注到的
阅读全文
摘要:Feature map(特征图) 在CNN的每个卷积层,数据以三维形式存在。可以看成是多个二维图片叠在一起,其中每一个称为一个feature map。 在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般是三个feature map(红绿蓝)。 在其他层,层与层之间会有
阅读全文
摘要:C3模块 C3模块由3个Conv块构成,其中第一个Conv块的步长为2,可以将特征图的尺寸减半。第二个和第三个Conv块的步长为1。Conv块采用的都是3x3卷积核。每个Conv块之间还加入了BN层和LeakyRelu激活函数,以提高模型的稳定性和泛化能力。 在新版yolov5中,作者将Bottle
阅读全文
摘要:CSP结构 CSP结构通过将输入特征分为两部分,然后在这两个部分之间进行交叉连接的方法来提高神经网络的性能。CSP结构能有效的提高模型的特征表示能力,从而提高模型的准确性和泛化能力。 CSP模块包括CSP1_X模块和CSP2_X模块。 可见,ResUnit模块的shortcut参数设置为True,就
阅读全文
摘要:CBL模块 CBL模块为标准卷积模块,包括Conv普通卷积层、BN批量归一化层、LeakyReLU激活函数层。
阅读全文
摘要:鲁棒性 鲁棒性指的是模型对于输入数据的健壮性,即模型在遇到各种不同的数据输入时,仍然能够保持高效的表现。一个鲁棒性强的模型能够在噪声、缺失数据或者其他异常情况下也能够准确地预测结果。 ·
阅读全文
摘要:YOLO系列之YOLOv1 创新点 将目标检测当成回归问题 输入一张图像经过一次推理可以得到图像中所有目标的检测框和类别。可以端到端的训练和优化网络 优点 速度快 YOLO使用全图信息,背景错误少 泛化能力好 缺点 每个网格只能预测两个边界框和一个类别,限制了对相近目标的检测数量,尤其是密集的小目标
阅读全文
摘要:Params(参数量)、Model_size(模型大小)和Flops(计算量) 参数量(params): 参数的数量,通常以M为单位。 params = Kh × Kw × Cin × Cout 模型大小(模型大小): 在一般的深度学习的框架中(如PyTorch),一般是32位存储,即一个参数用32
阅读全文
摘要:Batch Normalization 内部协变量偏移(ICS) 在神经网络的训练过程中,由于隐藏层参数的更新,同分布不同批次的数据,进入网络同一层后的输出分布发生变化,这种现象称之为内部协变量偏移(ICS)。 引起的问题 收敛速度慢,学习不稳定 一方面,ICS现象使网络的每一层需要不断适应输入数据
阅读全文
摘要:Anchor box(锚框) 锚框是一种用于定义目标位置和尺寸的预定义框或边界框,通常是在图像中不同长度和长宽比下的一组矩阵,对不同大小和不同形状的目标进行检测。 锚框为模型提供不同长度和长宽比的先验信息,使模型能够适应不同大小和形状的目标。算法本身不知道标号物体真实的位置,如果直接对位置预测比较困
阅读全文
摘要:指标分析 mAp:平均精度,综合衡量检测效果 Ap:精度,衡量被检测的物体是否准确 recall:召回,衡量需要被检测的物体是否被检测到 IoU:交并比,衡量预测框和真实框的重合程度
阅读全文
摘要:训练、验证和推理 在深度学习中,推理(Inference)、训练(Training)和验证(Validation)是三个关键概念,它们分别表示了不同的阶段和任务: 训练(Training) 训练是深度学习模型的初始阶段,其中模型通过学习数据的过程来逐步优化自己的参数,以便能够捕获输入数据的特征并执行
阅读全文
摘要:迁移学习 迁移学习(Transfer Learning)是机器学习和深度学习领域的一种方法,它通过将从一个任务中学到的知识或模型参数应用于另一个相关或不完全相关的任务,从而改进后者的性能。这个概念灵感来源于人类学习的方式,即我们在一个领域学到的知识和技能可以帮助我们更容易地学习另一个领域。 迁移学习
阅读全文
摘要:数据集 一、常见目标检测数据集 1、PASCAL VOC 07/12 Pascal Visual Object Classes(VOC)挑战赛。对四个目标类别进行分类和检测。这两个版本主要用于基准测试集。VOC2007 有5k个训练图像,超过12k的标注目标;VOC2012有11k个训练图像,超过2
阅读全文
摘要:# 初识目标检测 ## 什么是目标检测? 在图像或视频中,找到目标位置并进行分类。 早期的目标检测模型是通过集成一系列手工设计的特征提取器来构造的,速度慢、精度低、跨域性能差。 ## 目标检测的目的 检测出图像中所有实例的类别,并用一个轴对称的矩形框大致给出实例的位置。检测器应当识别出所有的实例,并
阅读全文
摘要:# 上采样和下采样(池化) 池化(下采样)  上采样 ![image-2023080113125
阅读全文
摘要:# 卷积神经网络 假设一张图片由28x28个像素块构成,每个像素块有一个值,称为灰度值,取值范围是0-255。而在深度学习中,我们用一个28x28的矩阵来存储图片信息,将0-255的灰度值转换为0-1之间的值。0代表全白,1代表全黑。图片存储的时候以0-255灰度值存储,而我们将图片载入到网络中时,
阅读全文
摘要:# 丢弃法(Dropout) Dropout的思想:“Learning less to learn better”。意思是使用更少的连接使效果更好。 在训练的时候,dropout会把一些连接断掉,而在测试(验证)的时候保持全连接。
阅读全文