深度学习-pyTorch - 随笔分类 - lipu123

权重初始化

摘要：1. 这个可以放在模型net的__init__:中 for name, param in self.named_parameters(): if 'weight' in name: nn.init.xavier_normal_(param) 比如说： class Model(nn.Module): 阅读全文

posted @ 2023-11-01 11:05 lipu123 编辑

pytorch中TensorDataset

摘要：对于这个TensorDataset,里面的元素的size要相同。例如： x=torch.tensor([0,1,2,3]) y=torch.tensor([1,0,3,2]) z=torch.tensor([[0,0,0,1,0], [0,0,0,0,1], [1,0,0,0,0], [0,0,0, 阅读全文

posted @ 2023-10-31 15:26 lipu123 编辑

pytorch冻结参数

摘要：这个主要用在微调的时候 # 冻结参数,这个就是将resnet34中原本的层的param参数不传播，新加的传播 for param in finetune_net.features.parameters(): param.requires_grad = False 比如，这个resnet34,它的输出阅读全文

posted @ 2023-10-28 22:38 lipu123 编辑

PIL和opencv打开图片

摘要：1.使用PIL的时候 from PIL import Image img=Image.open("./img/catdog.jpg") print(img.size) img.show() 输出为(728, 561) 2.opencv 使用函数cv2.imread(filepath,flags)读入阅读全文

posted @ 2023-10-27 21:04 lipu123 编辑

序列到序列学习（seq2seq）

摘要：seq2seq seq2seq最早应用于机器翻译，给定一个源语言的句子，自动翻译成目标语言。我们可以看出，机器翻译中的输入序列和输出序列都是长度可变的。为了解决这类问题，我们设计了⼀个通用的"编码器－解码器"架构。本节，我们将使用两个循环神经网络的编码器和解码器，并将其应用于序列到序列（seque 阅读全文

posted @ 2023-10-25 21:13 lipu123 编辑

pytorch中的transforms

摘要：首先我们在使用torchvision中经常会看到这个 dataset=torchvision.datasets.CIFAR10("../data",train=False,transform=torchvision.transforms.ToTensor(),download=True) 这里tra 阅读全文

posted @ 2023-10-23 11:44 lipu123 编辑

计算机视觉-风格迁移

摘要：简介计算机视觉的应用之一，将样式图片中的样式（比如油画风格等）迁移到内容图片（比如实拍的图片）上，得到合成图片可以理解成为一个滤镜，但相对于滤镜来讲具有更大的灵活性，一个滤镜通常只能够改变图片的某个方面，如果要达到理想中的风格，可能需要尝试大量不同的组合，这个过程的复杂程度不亚于模型调参基于C 阅读全文

posted @ 2023-10-13 20:51 lipu123 编辑

计算机视觉-全连接卷积神经网络（FCN）

摘要：简介 Fully Convolutional Network，FCN 语义分割是对图像中的每个像素进行分类，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即为该位置对应像素的类别预测 FCN 采用卷积神经网络实现了从图像像素到像素类别的变换，区别于图像分类和目标检测中的卷积神经网阅读全文

posted @ 2023-10-12 21:55 lipu123 编辑

计算机视觉-转置卷积

摘要：首先我们先说一个误区哈：转置卷积不是卷积的逆运算卷积层和汇聚层通常会减少下采样输入图像的空间维度（高和宽）卷积通常来说不会增大输入的高和宽，要么保持高和宽不变，要么会将高宽减半，很少会有卷积将高宽变大的可以通过 padding 来增加高和宽，但是如果 padding 得比较多的话，因为填充的阅读全文

posted @ 2023-10-12 10:42 lipu123 编辑

计算机视觉-语义分割和数据集

摘要：语义分割（semantic segmentation ）在图片分类中，其主要任务是给定一张图片，识别图片中主体物体目标检测，也叫物体检测，其主要任务是找出图片中多个感兴趣的物体，并且找到每个物体的具体位置（使用方形边界框来标注和预测图像中的目标），问题是这些框很多时候比较粗糙，只能标注出大致的位阅读全文

posted @ 2023-10-11 22:02 lipu123 编辑

计算机视觉-单发多框检测（SSD）（李沐）

摘要：简介以VGG-16为基础，使用VGG的前五个卷积，后面增加从CONV6开始的5个卷积结构，输入图片要求

300 \times 300

$300 \times 300$ 。越往前的feature map层（越大的feature map）我们让他检测越小的物体，越靠后的层（越小的feature map）特征提取的比较很，然后检测阅读全文

posted @ 2023-10-11 16:45 lipu123 编辑

计算机视觉-SSD(Single Shot MultiBox Detector)

摘要：首先我们来看看Faster RCNN存在的问题：对小目标检测效果比较差：个人感觉是因为它对整个的图像进行feature map，我们是对他卷积后的图像进行处理的，这样这个图像抽象的层次比较高，小的物体的特征很容易丢失。模型大，检测速度较慢简介 SSD算法源于2016年发表的算法论文，论文网址阅读全文

posted @ 2023-10-11 15:39 lipu123 编辑

计算机视觉-YOLO(You only look once)

摘要：YOLO 结构一个网络搞定一切，GoogleNet + 4个卷积+2个全连接层流程理解 1.原始图片resize到

448 \times 448

$448 \times 448$ ，经过前面卷积网络之后，将图片输出成了一个

7 \times 7 \times 30

$7\times 7 \times 30$ 的结构以图示的方式演示 2.默认\(7 \times 7 阅读全文

posted @ 2023-10-11 15:16 lipu123 编辑

计算机视觉-7.R-CNN、Fast R-CNN、Mask R-CNN

摘要：目标检测-Overfeat模型滑动窗口目标检测的暴力方法是从左到右、从上到下滑动窗口，利用分类识别目标。为了在不同观察距离处检测不同的目标类型，我们使用不同大小和宽高比的窗口。如下图所示：注：这样就变成每张子图片输出类别以及位置，变成分类问题。但是滑动窗口需要初始设定一个固定大小的窗口，这阅读全文

posted @ 2023-10-10 22:31 lipu123 编辑

计算机视觉-5.1 锚框（李沐）

摘要：目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边界从而更准确地预测目标的真实边界框（ground-truth bounding box）。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：以每个像素为中心，生成多个缩放比和宽高阅读全文

posted @ 2023-10-09 20:34 lipu123 编辑

计算机视觉-5.锚框

摘要：目标检测算法目标检测算法中，通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含所感兴趣的目标，并调整区域边界从而更加准确地预测目标的真实边界框（ground-truth bounding box）。基于锚框的目标检测算法也有不基于锚框的目标检测算法，但是基于锚框的目标检测算法占主流。阅读全文

posted @ 2023-10-09 17:37 lipu123 编辑

计算机视觉-4.目标检测数据集（图片转化成tensor）

摘要：目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集。为了快速测试目标检测模型，我们收集并标记了一个小型数据集。首先，我们拍摄了一组香蕉的照片，并生成了1000张不同角度和大小的香蕉图像。然后，我们在一些背景图片的随机位置上放一张香蕉的图像。最后，我们在图片上为这些香蕉标记阅读全文

posted @ 2023-10-09 09:46 lipu123 编辑

计算机视觉-3.目标检测和边界框

摘要：在图像分类任务中，我们假设图像中只有一个主要物体对象，我们只关注如何识别其类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或目标识别（object recog 阅读全文

posted @ 2023-10-08 21:33 lipu123 编辑

计算机视觉-2.微调

摘要：本节将介绍迁移学习中的常见技巧:微调（fine-tuning）。如图13.2.1所示，微调包括以下四个步骤前面的一些章节介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet，它有超过1000万的图像和100 阅读全文

posted @ 2023-10-07 22:24 lipu123 编辑

计算机视觉-1.图像增广

摘要：过大型数据集是成功应用深度神经网络的先决条件。图像增广在对训练图像进行一系列的随机变化之后，生成相似但不同的训练样本，从而扩大了训练集的规模。此外，应用图像增广的原因是，随机改变训练样本可以减少模型对某些属性的依赖，从而提高模型的泛化能力。例如，我们可以以不同的方式裁剪图像，使感兴趣的对象出现阅读全文

posted @ 2023-10-07 21:42 lipu123 编辑

lipu123

随笔分类 - 深度学习&机器学习&机器学习 / 深度学习-pyTorch

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论