随笔分类 -  深度学习&机器学习&机器学习 / 深度学习-pyTorch

摘要:1. 这个可以放在模型net的__init__:中 for name, param in self.named_parameters(): if 'weight' in name: nn.init.xavier_normal_(param) 比如说: class Model(nn.Module): 阅读全文
posted @ 2023-11-01 11:05 lipu123 编辑
摘要:对于这个TensorDataset,里面的元素的size要相同。例如: x=torch.tensor([0,1,2,3]) y=torch.tensor([1,0,3,2]) z=torch.tensor([[0,0,0,1,0], [0,0,0,0,1], [1,0,0,0,0], [0,0,0, 阅读全文
posted @ 2023-10-31 15:26 lipu123 编辑
摘要:这个主要用在微调的时候 # 冻结参数,这个就是将resnet34中原本的层的param参数不传播,新加的传播 for param in finetune_net.features.parameters(): param.requires_grad = False 比如,这个resnet34,它的输出 阅读全文
posted @ 2023-10-28 22:38 lipu123 编辑
摘要:1.使用PIL的时候 from PIL import Image img=Image.open("./img/catdog.jpg") print(img.size) img.show() 输出为(728, 561) 2.opencv 使用函数cv2.imread(filepath,flags)读入 阅读全文
posted @ 2023-10-27 21:04 lipu123 编辑
摘要:seq2seq seq2seq最早应用于机器翻译,给定一个源语言的句子,自动翻译成目标语言。 我们可以看出,机器翻译中的输入序列和输出序列都是长度可变的。为了解决这类问题,我们设计了⼀个通用的"编码器-解码器"架构。本节,我们将使用两个循环神经网络的编码器和解码器,并将其应用于序列到序列(seque 阅读全文
posted @ 2023-10-25 21:13 lipu123 编辑
摘要:首先我们在使用torchvision中经常会看到这个 dataset=torchvision.datasets.CIFAR10("../data",train=False,transform=torchvision.transforms.ToTensor(),download=True) 这里tra 阅读全文
posted @ 2023-10-23 11:44 lipu123 编辑
摘要:简介 计算机视觉的应用之一,将样式图片中的样式(比如油画风格等)迁移到内容图片(比如实拍的图片)上,得到合成图片 可以理解成为一个滤镜,但相对于滤镜来讲具有更大的灵活性,一个滤镜通常只能够改变图片的某个方面,如果要达到理想中的风格,可能需要尝试大量不同的组合,这个过程的复杂程度不亚于模型调参 基于C 阅读全文
posted @ 2023-10-13 20:51 lipu123 编辑
摘要:简介 Fully Convolutional Network,FCN 语义分割是对图像中的每个像素进行分类,输出的类别预测与输入图像在像素级别上具有一一对应关系:通道维的输出即为该位置对应像素的类别预测 FCN 采用卷积神经网络实现了从图像像素到像素类别的变换,区别于图像分类和目标检测中的卷积神经网 阅读全文
posted @ 2023-10-12 21:55 lipu123 编辑
摘要:首先我们先说一个误区哈: 转置卷积不是卷积的逆运算 卷积层和汇聚层通常会减少下采样输入图像的空间维度(高和宽) 卷积通常来说不会增大输入的高和宽,要么保持高和宽不变,要么会将高宽减半,很少会有卷积将高宽变大的 可以通过 padding 来增加高和宽,但是如果 padding 得比较多的话,因为填充的 阅读全文
posted @ 2023-10-12 10:42 lipu123 编辑
摘要:语义分割(semantic segmentation ) 在图片分类中,其主要任务是给定一张图片,识别图片中主体物体 目标检测,也叫物体检测,其主要任务是找出图片中多个感兴趣的物体,并且找到每个物体的具体位置(使用方形边界框来标注和预测图像中的目标),问题是这些框很多时候比较粗糙,只能标注出大致的位 阅读全文
posted @ 2023-10-11 22:02 lipu123 编辑
摘要:简介 以VGG-16为基础,使用VGG的前五个卷积,后面增加从CONV6开始的5个卷积结构,输入图片要求300×300。 越往前的feature map层(越大的feature map)我们让他检测越小的物体,越靠后的层(越小的feature map)特征提取的比较很,然后检测 阅读全文
posted @ 2023-10-11 16:45 lipu123 编辑
摘要:首先我们来看看Faster RCNN存在的问题: 对小目标检测效果比较差: 个人感觉是因为它对整个的图像进行feature map,我们是对他卷积后的图像进行处理的,这样这个图像抽象的层次比较高,小的物体的特征很容易丢失。 模型大,检测速度较慢 简介 SSD算法源于2016年发表的算法论文,论文网址 阅读全文
posted @ 2023-10-11 15:39 lipu123 编辑
摘要:YOLO 结构 一个网络搞定一切,GoogleNet + 4个卷积+2个全连接层 流程理解 1.原始图片resize到448×448,经过前面卷积网络之后,将图片输出成了一个7×7×30的结构 以图示的方式演示 2.默认\(7 \times 7 阅读全文
posted @ 2023-10-11 15:16 lipu123 编辑
摘要:目标检测-Overfeat模型 滑动窗口 目标检测的暴力方法是从左到右、从上到下滑动窗口,利用分类识别目标。 为了在不同观察距离处检测不同的目标类型,我们使用不同大小和宽高比的窗口。如下图所示: 注:这样就变成每张子图片输出类别以及位置,变成分类问题。 但是滑动窗口需要初始设定一个固定大小的窗口,这 阅读全文
posted @ 2023-10-10 22:31 lipu123 编辑
摘要:目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框(ground-truth bounding box)。 不同的模型使用的区域采样方法可能不同。 这里我们介绍其中的一种方法:以每个像素为中心,生成多个缩放比和宽高 阅读全文
posted @ 2023-10-09 20:34 lipu123 编辑
摘要:目标检测算法 目标检测算法中,通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含所感兴趣的目标,并调整区域边界从而更加准确地预测目标的真实边界框(ground-truth bounding box)。 基于锚框的目标检测算法 也有不基于锚框的目标检测算法,但是基于锚框的目标检测算法占主流。 阅读全文
posted @ 2023-10-09 17:37 lipu123 编辑
摘要:目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集。 为了快速测试目标检测模型,我们收集并标记了一个小型数据集。 首先,我们拍摄了一组香蕉的照片,并生成了1000张不同角度和大小的香蕉图像。 然后,我们在一些背景图片的随机位置上放一张香蕉的图像。 最后,我们在图片上为这些香蕉标记 阅读全文
posted @ 2023-10-09 09:46 lipu123 编辑
摘要:在图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。 然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。 在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object recog 阅读全文
posted @ 2023-10-08 21:33 lipu123 编辑
摘要:本节将介绍迁移学习中的常见技巧:微调(fine-tuning)。如 图13.2.1所示,微调包括以下四个步骤前面的一些章节介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。 我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet,它有超过1000万的图像和100 阅读全文
posted @ 2023-10-07 22:24 lipu123 编辑
摘要:过大型数据集是成功应用深度神经网络的先决条件。 图像增广在对训练图像进行一系列的随机变化之后,生成相似但不同的训练样本,从而扩大了训练集的规模。 此外,应用图像增广的原因是,随机改变训练样本可以减少模型对某些属性的依赖,从而提高模型的泛化能力。 例如,我们可以以不同的方式裁剪图像,使感兴趣的对象出现 阅读全文
posted @ 2023-10-07 21:42 lipu123 编辑

点击右上角即可分享
微信分享提示