随笔分类 -  Pytorch自然语言处理

摘要:1.Attention(注意力机制) 上图中,输入序列上是“机器学习”,因此Encoder中的h1、h2、h3、h4分别代表“机","器","学","习”的信息,在翻译"macine"时,第一个上下文向量C1应该和"机","器"两个字最相关,所以对应的权重a比较大,在翻译"learning"时,第二 阅读全文
posted @ 2020-09-04 11:05 雨后观山色 阅读(4520) 评论(0) 推荐(0) 编辑
摘要:1.三个核心函数 介绍一系列关于 PyTorch 模型保存与加载的应用场景,主要包括三个核心函数: (1)torch.save 其中,应用了 Python 的 pickle 包,进行序列化,可适用于模型Models,张量Tensors,以及各种类型的字典对象的序列化保存. (2)torch.load 阅读全文
posted @ 2020-08-19 18:05 雨后观山色 阅读(4891) 评论(0) 推荐(0) 编辑
摘要:1.Conv3d class torch.nn.Conv3d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True) Parameters: in_channels(i 阅读全文
posted @ 2020-08-10 09:20 雨后观山色 阅读(12717) 评论(0) 推荐(0) 编辑
摘要:1.View函数 把原先tensor中的数据按照行优先的顺序排成一个一维的数据(这里应该是因为要求地址是连续存储的),然后按照参数组合成其他维度的tensor。比如说是不管你原先的数据是[[[1,2,3],[4,5,6]]]还是[1,2,3,4,5,6],因为它们排成一维向量都是6个元素,所以只要v 阅读全文
posted @ 2020-08-09 10:50 雨后观山色 阅读(2293) 评论(0) 推荐(0) 编辑
摘要:1.LSTM+CRF概述 对于命名实体识别来讲,目前比较流行的方法是基于神经网络,例如,论文[1]提出了基于BiLSTM-CRF的命名实体识别模型,该模型采用word embedding和character embedding(在英文中,word embedding对应于单词嵌入式表达,charac 阅读全文
posted @ 2020-08-04 15:09 雨后观山色 阅读(5987) 评论(0) 推荐(0) 编辑
摘要:1.CrossEntropyLoss()损失函数 交叉熵主要是用来判定实际的输出与期望的输出的接近程度,为什么这么说呢,举个例子:在做分类的训练的时候,如果一个样本属于第K类,那么这个类别所对应的的输出节点的输出值应该为1,而其他节点的输出都为0,即[0,0,1,0,….0,0],这个数组也就是样本 阅读全文
posted @ 2020-08-03 18:20 雨后观山色 阅读(1503) 评论(0) 推荐(0) 编辑
摘要:1.LSTM模型参数说明 class torch.nn.LSTM(*args, **kwargs) 参数列表 input_size:x的特征维度 hidden_size:隐藏层的特征维度 num_layers:lstm隐层的层数,默认为1 bias:False则bih=0和bhh=0. 默认为Tru 阅读全文
posted @ 2020-08-03 14:55 雨后观山色 阅读(4502) 评论(0) 推荐(0) 编辑
摘要:1.model.train()与model.eval()的用法 看别人的面经时,浏览到一题,问的就是这个。自己刚接触pytorch时套用别人的框架,会在训练开始之前写上model.trian(),在测试时写上model.eval()。然后自己写的时候也就保留了这个习惯,没有去想其中原因。 在经过一番 阅读全文
posted @ 2020-08-03 09:35 雨后观山色 阅读(14988) 评论(0) 推荐(4) 编辑
摘要:1.RNN的构造过程 RNN是一种特殊的神经网路结构,其本身是包含循环的网络,允许信息在神经元之间传递,如下图所示: 图示是一个RNN结构示意图,图中的 表示神经网络模型, 表示模型的输入信号, 表示模型的输出信号,如果没有 的输出信号传递到 的那个箭头, 这个网络模型与普通的神经网络结构无异。那么 阅读全文
posted @ 2020-08-01 10:53 雨后观山色 阅读(1279) 评论(0) 推荐(0) 编辑
摘要:1.学习率 (learning rate) 学习率 (learning rate),控制模型的学习进度 : 学习率(Learning Rate,常用η表示。)是一个超参数,考虑到损失梯度,它控制着我们在多大程度上调整网络的权重。值越低,沿着向下的斜率就越慢。虽然这可能是一个好主意(使用低学习率),以 阅读全文
posted @ 2020-07-30 17:04 雨后观山色 阅读(9351) 评论(0) 推荐(0) 编辑
摘要:1.优化器算法简述 首先来看一下梯度下降最常见的三种变形 BGD,SGD,MBGD,这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度,这样的话自然就涉及到一个 trade-off,即参数更新的准确率和运行时间。 2.Batch Gradient Descent (BGD) 梯度更新规则: 阅读全文
posted @ 2020-07-30 16:28 雨后观山色 阅读(5592) 评论(0) 推荐(0) 编辑
摘要:1.nn.Module类理解 pytorch里面一切自定义操作基本上都是继承nn.Module类来实现的 方法预览: class Module(object): def __init__(self): def forward(self, *input): def add_module(self, n 阅读全文
posted @ 2020-07-25 21:19 雨后观山色 阅读(17535) 评论(0) 推荐(3) 编辑
摘要:1.word Embedding的概念理解 首先,我们先理解一下什么是Embedding。Word Embedding翻译过来的意思就是词嵌入,通俗来讲就是将文字转换为一串数字。因为数字是计算机更容易识别的一种表达形式。我们词嵌入的过程,就相当于是我们在给计算机制造出一本字典的过程。计算机可以通过这 阅读全文
posted @ 2020-07-25 18:12 雨后观山色 阅读(4194) 评论(0) 推荐(0) 编辑
摘要:1.为什么要用pack_padded_sequence在使用深度学习特别是RNN(LSTM/GRU)进行序列分析时,经常会遇到序列长度不一样的情况,此时就需要对同一个batch中的不同序列使用padding的方式进行序列长度对齐(可以都填充为batch中最长序列的长度,也可以设置一个统一的长度,对所 阅读全文
posted @ 2020-07-25 15:18 雨后观山色 阅读(1747) 评论(0) 推荐(0) 编辑
摘要:1.Pytorch中的LSTM模型参数说明 class torch.nn.LSTM(*args, **kwargs) Pytorch官方文档中参数说明: Args: input_size: The number of expected features in the input `x` hidden 阅读全文
posted @ 2020-07-24 09:10 雨后观山色 阅读(2489) 评论(0) 推荐(0) 编辑
摘要:1.检查是否有合适的GPU, 若有安装Cuda与CuDNN (1)检查电脑是否有合适的GPU 在桌面上右击如果能找到NVIDA控制面板,则说明该电脑有GPU。控制面板如下,并通过查看系统信息获取支持的Cuda版本 (2)下载Cuda 官网:https://developer.nvidia.com/c 阅读全文
posted @ 2020-06-22 21:23 雨后观山色 阅读(26549) 评论(0) 推荐(1) 编辑
摘要:batch_size、epoch、iteration是深度学习中常见的几个超参数: (1)batch_size:每批数据量的大小。DL通常用SGD的优化算法进行训练,也就是一次(1 个iteration)一起训练batchsize个样本,计算它们的平均损失函数值,来更新参数。 (2)iteratio 阅读全文
posted @ 2020-06-18 11:14 雨后观山色 阅读(5299) 评论(0) 推荐(0) 编辑
摘要:1.深度学习框架 pytorch与其他框架的比较 pytorch的学习方法: 课程安排: PyTorch是一个基于Python的科学计算库,它有以下特点: 类似于NumPy,但是它可以使用GPU 可以用它定义深度学习模型,可以灵活地进行深度学习模型的训练和使用 2.tensor的运算 Tensor类 阅读全文
posted @ 2020-06-15 16:46 雨后观山色 阅读(3183) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示