08 2024 档案

摘要:本文详细介绍了transformer的整体架构以及各个组件。 transformers的总体架构 下面让我们从简单到复杂来深入了解一下transformers的总体架构 黑盒结构 以机器翻译为例,每当我们输入一段文本,则会输出一段文本,而transformer就是这一过程的黑盒。 编码器解码器结构 阅读全文
posted @ 2024-08-08 00:44 codersgl 阅读(142) 评论(0) 推荐(0) 编辑
摘要:随着我们设计越来越深的网络,深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力,在这种网络中,添加层会使网络更具表现力, 为了取得质的突破,我们需要一些数学基础知识。 函数类 首先,假设有一类特定的神经网络架构F,它包括学习速率和其他超参数 阅读全文
posted @ 2024-08-05 18:45 codersgl 阅读(61) 评论(0) 推荐(0) 编辑
摘要:训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization) (Ioffe and Szegedy, 2015),这是一种流行且有效的技术,可持续加速深层网络的收敛速度。 再结合在下一节将介绍的残差块,批量规范化使得研究人员能 阅读全文
posted @ 2024-08-05 10:46 codersgl 阅读(84) 评论(0) 推荐(0) 编辑
摘要:在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet (Szegedy et al., 2015)的网络架构大放异彩。 GoogLeNet吸收了NiN中串联网络的思想,并在此基础上做了改进。 这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。 毕竟,以前流行的网络使用小 阅读全文
posted @ 2024-08-04 20:30 codersgl 阅读(56) 评论(0) 推荐(0) 编辑
摘要:LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 或者,可以想象在这个过程的早期使用全连接层。然而,如果使用了全连接层,可能会完全 阅读全文
posted @ 2024-08-04 15:48 codersgl 阅读(36) 评论(0) 推荐(0) 编辑
摘要:虽然AlexNet证明深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。 之后,我们将介绍一些常用于设计深层神经网络的启发式概念。 与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似,神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问 阅读全文
posted @ 2024-08-04 14:01 codersgl 阅读(58) 评论(0) 推荐(0) 编辑
摘要:在LeNet提出后,卷积神经网络在计算机视觉和机器学习领域中很有名气。但卷积神经网络并没有主导这些领域。这是因为虽然LeNet在小数据集上取得了很好的效果,但是在更大、更真实的数据集上训练卷积神经网络的性能和可行性还有待研究。事实上,在上世纪90年代初到2012年之间的大部分时间里,神经网络往往被其 阅读全文
posted @ 2024-08-03 14:42 codersgl 阅读(43) 评论(0) 推荐(0) 编辑
摘要:通过前面的学习我们了解到了构建一个卷积神经网络所需的几个组件。回想一下我们所学过的线性模型,无论是softmax回归还是MLP,它们对于图像的分类都是将二维的图片展平为一维的向量,然后利用全连接层进行处理。而现在我们已经学会了卷积层的处理方法,可以在图像中保留空间结构。同时利用卷积层代替全连接层的另 阅读全文
posted @ 2024-08-02 16:39 codersgl 阅读(17) 评论(0) 推荐(0) 编辑
摘要:通常当我们处理图像时,我们希望逐渐降低隐藏表示的空间分辨率、聚集信息,这样随着我们在神经网络中层叠的上升,每个神经元对其敏感的感受野(输入)就越大。 而我们的机器学习任务通常会跟全局图像的问题有关(例如,“图像是否包含一只猫呢?”),所以我们最后一层的神经元应该对整个输入的全局敏感。通过逐渐聚合信息 阅读全文
posted @ 2024-08-02 14:43 codersgl 阅读(81) 评论(0) 推荐(0) 编辑
摘要:在上一篇文章中我们讨论了,CNN中填充和步幅的作用。同时,我们所有的讨论都是基于二维的张量,即不考虑图片的RGB通道,然而在现实生活中我们往往需要处理多通道的图片,比如RGB图片,其通道数为3。那么,我们该如何处理多通道的图片呢? 这里我们为了处理多通道图片,将我们的输入和隐藏层表示都变成三维张量。 阅读全文
posted @ 2024-08-02 12:23 codersgl 阅读(49) 评论(0) 推荐(0) 编辑
摘要:我们都知道图像在经过卷积处理后,输出图像的尺寸一般会变小,假设输入图像尺寸为nh×nw,卷积核尺寸为kh×kw,经过卷积处理后,输出图像的尺寸为(nhkh+1)×(nwkw+1)。但是这个过程有个弊端,那就是在经过多 阅读全文
posted @ 2024-08-02 10:02 codersgl 阅读(103) 评论(0) 推荐(0) 编辑
摘要:在上一篇文章中,我们了解了卷积的原理,下面让我们来看看卷积在图像识别中的具体操作 互相关运算 严格来说,卷积层是一个错误的叫法,因为它表达的运算其实是数学上的互相关(cross-correlation)运算,而不是卷积运算 我们先来看一下二维图像的互相关运算: 在二维互相关运算中,卷积窗口从输入张量 阅读全文
posted @ 2024-08-01 23:44 codersgl 阅读(24) 评论(0) 推荐(0) 编辑
摘要:学过MLP的小伙伴们都知道,假设我们对一个MLP模型进行图像分类任务时,我们对输入图像的第一步操作就是将一个二维的图像展平为一维作为输出。但这样的处理方式有一个显而易见的缺点——忽略了每张图像的空间结构信息。显然这是不准确的,它会导致我们对于图像的识别率降低。除此之外,使用MLP模型进行图像分类任务 阅读全文
posted @ 2024-08-01 23:02 codersgl 阅读(25) 评论(0) 推荐(0) 编辑
摘要:最近,学习了一些Linux操作系统相关的的知识,但是本人对于Linux命令行不是很熟悉,所以想通过这篇博客来记录一下自己学习Linux命令行的心得。 Linux命令行简介 Linux命令行是一种基于文本的界面,它允许用户通过输入命令来与操作系统进行交互。与图形界面相比,命令行界面更加灵活和强大,可以 阅读全文
posted @ 2024-08-01 11:15 codersgl 阅读(5) 评论(0) 推荐(0) 编辑
摘要:希尔排序(Shell Sort) 什么是希尔排序? 希尔排序(Shell Sort)是一种分组插入排序的排序算法 首先取整数d1=n/2,将元素分为d1个组,每组相邻量元素之间距离为d1,在各组内进行直接插入排序。 取第二个整数d2,重复上述分组过程,知道 阅读全文
posted @ 2024-08-01 03:07 codersgl 阅读(7) 评论(0) 推荐(0) 编辑
摘要:汽车价格预测多元线性回归 关于数据集 问题陈述 一家中国汽车公司吉利汽车渴望进入美国市场,在美利建立制造工厂并在当地生产汽车,以与美国和欧洲同行竞争。 他们与一家汽车咨询公司签订了合同,以了解汽车定价所依赖的因素。具体来说,他们希望了解影响美国市场汽车定价的因素,因为这些因素可能与中国市场有很大不同 阅读全文
posted @ 2024-08-01 03:04 codersgl 阅读(8) 评论(0) 推荐(0) 编辑
摘要:Markdown For Typora 概览 Markdown由 Daring Fireball创建;原始指南在 这里。然而,其语法在不同的解析器或编辑器之间有所不同。Typora使用的是GitHub Flavored Markdown. 块级元素详解 段落和换行 段落是一行或多行连续的文本。在Ma 阅读全文
posted @ 2024-08-01 02:56 codersgl 阅读(9) 评论(0) 推荐(0) 编辑
摘要:数据准备 导入必要的包 #导入必要的包并设置种子以实现重现性。 import torch import torch.nn as nn from torch.nn import functional as F torch.manual_seed(42) #Optional import mlflow 阅读全文
posted @ 2024-08-01 02:13 codersgl 阅读(18) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示