2021 年 6月随笔档案 - jasonzhangxianrong

pytorch（二十六）：自动编码器

摘要：一、自动编码器 1、AE.py import torch from torch import nn class AE(nn.Module): def __init__(self): super(AE, self).__init__() #[b, 784] => [b, 20] self.encode 阅读全文

posted @ 2021-06-30 19:48 jasonzhangxianrong 阅读(349) 评论(0) 推荐(0) 编辑

NLP（二十六）：如何微调 GPT-2 以生成文本

摘要：近年来，自然语言生成 (NLG) 取得了令人难以置信的进步。 2019 年初，OpenAI 发布了 GPT-2，这是一个巨大的预训练模型（1.5B 参数），能够生成类似人类质量的文本。 Generative Pretrained Transformer 2 (GPT-2) 顾名思义，基于 Trans 阅读全文

posted @ 2021-06-30 10:07 jasonzhangxianrong 阅读(8087) 评论(0) 推荐(0) 编辑

python（九）：np.where

摘要：1、官方文档 https://numpy.org/doc/stable/reference/generated/numpy.where.html 2、讲解阅读全文

posted @ 2021-06-25 13:19 jasonzhangxianrong 阅读(176) 评论(0) 推荐(0) 编辑

python（八）：python使用lmdb数据库

摘要：一、入门代码 LMDB的全称是Lightning Memory-Mapped Database(快如闪电的内存映射数据库)，它的文件结构简单，包含一个数据文件和一个锁文件： LMDB文件可以同时由多个进程打开，具有极高的数据存取速度，访问简单，不需要运行单独的数据库管理进程，只要在访问数据的代码里引阅读全文

posted @ 2021-06-22 17:57 jasonzhangxianrong 阅读(16271) 评论(0) 推荐(1) 编辑

NLP（二十五）：Faiss+SentenceBert应用

摘要：一、Sentence_Bert代码 from sentence_transformers import SentenceTransformer, SentencesDataset, util from sentence_transformers import InputExample, evalua 阅读全文

posted @ 2021-06-22 17:13 jasonzhangxianrong 阅读(790) 评论(0) 推荐(0) 编辑

NLP（二十四）：注意力机制和自注意力机制

摘要：一、基本概念 1、为什么要因为注意力机制在Attention诞生之前，已经有CNN和RNN及其变体模型了，那为什么还要引入attention机制？主要有两个方面的原因，如下：（1）计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。（2）优化阅读全文

posted @ 2021-06-22 13:20 jasonzhangxianrong 阅读(4730) 评论(0) 推荐(0) 编辑

NLP（二十三）：用tf-idf得到句子向量，并计算相似度

摘要：一、基于gensim 1、模型类 import os import jieba import pickle import logging import numpy as np from gensim import corpora, models, similarities import utils. 阅读全文

posted @ 2021-06-18 14:11 jasonzhangxianrong 阅读(1413) 评论(0) 推荐(0) 编辑

pandas（六）：pandas对excel进行读写

摘要：一、代码如下 import pandas as pd import numpy as np class Process(): def __init__(self): self.path_1 = "3000条无意义.xlsx" self.path_2 = "录音跟听0526.xlsx" self.s 阅读全文

posted @ 2021-06-16 13:34 jasonzhangxianrong 阅读(166) 评论(0) 推荐(0) 编辑

NLP（二十二）：基于依存句法的关键词抽取算法

摘要：一、任务描述关键短语提取（Keyphrase Extraction），顾名思义，就是给定一篇文本，提取其中的关键短语。这项工作在新闻、学术论文中非常常见。比如，给定如下一篇新闻：我们能够从中提取到以下一些关键短语，以及相关的权重信息：这样的操作很容易让人联想到关键词提取，两者都是从文本中找出概阅读全文

posted @ 2021-06-15 12:43 jasonzhangxianrong 阅读(3077) 评论(0) 推荐(0) 编辑

(九)混淆矩阵与绘图

摘要：一、基本概念当说到召回率的时候就说到了混淆矩阵。再回顾一下召回率吧，案例中有100个正例，猜中(预测对)了59个，我们就说召回率为59%。召回率就是猜中率。当时也讲到，正例和反例，加上猜中和猜错，总共有四种情况所谓召回率，仅仅是其中的四分之一。在条件允许(资本充足)的情况下，我们关心的，也阅读全文

posted @ 2021-06-15 10:12 jasonzhangxianrong 阅读(1171) 评论(0) 推荐(0) 编辑

(八)sklearn中计算准确率、召回率、精确度、F1值

摘要：介绍准确率、召回率、精确度和F1分数是用来评估模型性能的指标。尽管这些术语听起来很复杂，但它们的基本概念非常简单。它们基于简单的公式，很容易计算。这篇文章将解释以下每个术语：为什么用它公式不用sklearn来计算使用sklearn进行计算在本教程结束时，我们将复习混淆矩阵以及如何呈现它阅读全文

posted @ 2021-06-15 09:47 jasonzhangxianrong 阅读(6881) 评论(0) 推荐(2) 编辑

NLP（二十一）：NLP中的数据增强

摘要：与计算机视觉中使用图像进行数据增强不同，NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作，如将图像旋转或将其转换为灰度，并不会改变其语义。语义不变变换的存在使增强成为计算机视觉研究中的一个重要工具。我很好奇是否有人尝试开发NLP的增强技术，并研究了现有的文献。在这篇文章中，我将分享我对阅读全文

posted @ 2021-06-15 09:43 jasonzhangxianrong 阅读(349) 评论(0) 推荐(0) 编辑

pandas（五）：pandas对CSV合并多个文件，分割训练集测试集

摘要：一、pandas对CSV合并多个文件，分割训练集测试集 def all_data(self): df1 = pd.read_csv("data/POI/negtive.csv") df2 = pd.read_csv("data/POI/positive.csv") df = pd.concat([d 阅读全文

posted @ 2021-06-10 11:03 jasonzhangxianrong 阅读(362) 评论(0) 推荐(0) 编辑

pandas(四)：pandas读取csv

摘要：def update_1(self): path = "excel/3000_拒识语料.csv" data = pd.read_csv(path, sep="\t") sentence1 = data["sentence"].tolist() label1 = data["label"].tolis 阅读全文

posted @ 2021-06-09 15:22 jasonzhangxianrong 阅读(88) 评论(0) 推荐(0) 编辑

pandas(三)：pandas读取excel

摘要：一、代码如下 import pandas as pd class ProcessData(object): def __init__(self): #self.path = "../data/new_data/随机抽听_1.xls" #self.path = "../data/new_data/无意阅读全文

posted @ 2021-06-07 14:08 jasonzhangxianrong 阅读(219) 评论(0) 推荐(0) 编辑

06 2021 档案

公告