2021 年 5月随笔档案 - jasonzhangxianrong

NLP（二十）：相似问句生成--机器人的“标准问”库之Query生成

摘要：一、Query生成的目的及意义？在问答系统任务（问答机器人）中，我们往往会人为地配置一些常用并且描述清晰的问题及其对应的回答，我们将这些配置好的问题称之为“标准问”。当用户进行提问时，常常将用户的问题与所有配置好的标准问进行相似度计算，找出与用户问题最相似的标准问，并返回其答案给用户，这样就完成了阅读全文

posted @ 2021-05-31 10:57 jasonzhangxianrong 阅读(3438) 评论(3) 推荐(0) 编辑

NLP（十九）：基于transformer的对话系统:RNN、seq2seq、bert、GPT2

摘要：参考了pytorch官方文档：https://pytorch.org/tutorials/beginner/chatbot_tutorial.html 一、概述使用pycharm编写项目，代码分为四个文件：process.py、neural_network.py、train.py、evaluate 阅读全文

posted @ 2021-05-30 15:14 jasonzhangxianrong 阅读(2669) 评论(4) 推荐(1) 编辑

python（七）：python记录日志

摘要：Python日志采集（详细）通常在前期调试代码的时候，我们会使用print在IDE控制台打印一些信息，判断运行情况。但在运行整个自动化测试项目的过程中，通过print打印信息的方式获取运行情况显然行不通。这时就需要收集日志，每次运行后通过查看日志来获取项目运行情况。那么我们该如何获取日志？一，日阅读全文

posted @ 2021-05-27 16:20 jasonzhangxianrong 阅读(1716) 评论(0) 推荐(0) 编辑

linux操作git步骤

摘要：1、在linux新建文件夹 mkdir semantic_understand cd semantic_understand 2、初始化，并克隆远端git项目 git config --global user.name "name" git config --global user.email "z 阅读全文

posted @ 2021-05-26 15:13 jasonzhangxianrong 阅读(224) 评论(0) 推荐(0) 编辑

python（七）：python的类属性和实例属性

摘要：1、类属性与实例属性类属性就相当与全局变量，实例对象共有的属性，实例对象的属性为实例对象自己私有。类属性就是类对象（Tool）所拥有的属性，它被所有类对象的实例对象(实例方法)所共有，在内存中只存在一个副本，这个和C++中类的静态成员变量有点类似。对于公有的类属性，在类外可以通过类对象和实例对象阅读全文

posted @ 2021-05-25 15:37 jasonzhangxianrong 阅读(813) 评论(0) 推荐(0) 编辑

python（六）：python的四种配置文件

摘要：参考：https://mp.weixin.qq.com/s/PBLiKCNivXdTH5Fufou3UA 1. ini .ini 文件是Initialization File的缩写，即初始化文件，是windows的系统配置文件所采用的存储格式，统管windows的各项配置。 1.1 ini文件的定义阅读全文

posted @ 2021-05-25 15:34 jasonzhangxianrong 阅读(471) 评论(0) 推荐(0) 编辑

NLP（十八）：训练字级别的word2vec、Fasttext和词级别的word2vec

摘要：一、数据： word2vec训练数据格式说明：对于文本文件，基本格式是一行一句话，需要分好词。（1）如果按字级别训练，将汉字分隔开就行。按字分割： line_str = line.replace(" ", "") cn = " ".join(line_str) （2）按词分割方法有很多，jieb 阅读全文

posted @ 2021-05-24 10:17 jasonzhangxianrong 阅读(327) 评论(0) 推荐(0) 编辑

NLP（十七）：BiLSTM-Attention文本分类

摘要：一、概述首先，我们导入需要的包，包括模型，优化器，梯度求导等，将数据类型全部转化成tensor类型 import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch.autogr 阅读全文

posted @ 2021-05-21 15:17 jasonzhangxianrong 阅读(537) 评论(0) 推荐(0) 编辑

NLP（十六）：Faiss应用

摘要：Faiss库是由 Facebook 开发的适用于稠密向量匹配的开源库，支持 c++ 与 python 调用。通过实验证实，128维的125W向量，在 CPU 下检索耗时约70ms，经过 GPU 加速后检索耗时仅5ms。一、安装 Faiss 支持直接通过 conda 安装 python 接口，以及阅读全文

posted @ 2021-05-21 11:39 jasonzhangxianrong 阅读(3562) 评论(0) 推荐(0) 编辑

推荐系统（一）：DeepFm原理与实战

摘要：一、概述 https://blog.csdn.net/springtostring/article/details/108157070 FM模型善于挖掘二阶特征交叉关系，而神经网络DNN的优点是能够挖掘高阶的特征交叉关系，于是DeepFM将两者组合到一起，实验证明DeepFM比单模型FM、DNN效果阅读全文

posted @ 2021-05-18 10:28 jasonzhangxianrong 阅读(1331) 评论(0) 推荐(0) 编辑

NLP（十五）：word2vec+ESIM进行文本相似度计算

摘要：一、准备数据集 models\esim_model\my_dataset.py import torch.utils.data as data class MyDataset(data.Dataset): def __init__(self, texta, textb, label): self.t 阅读全文

posted @ 2021-05-16 14:13 jasonzhangxianrong 阅读(957) 评论(3) 推荐(0) 编辑

NLP（十四）：Simple-Transformers—用BERT，RoBERTa，XLNet，XLM和DistilBERT文本分类

摘要：https://zhuanlan.zhihu.com/p/87760325 https://zhuanlan.zhihu.com/p/89232880 一、前言 Simple Transformers是Hugging Face在的Transformers库的基础上构建的。 Hugging Face 阅读全文

posted @ 2021-05-16 03:55 jasonzhangxianrong 阅读(1185) 评论(0) 推荐(0) 编辑

NLP(十三)：word2vec和siamese-LSTM结合计算文本相似度

摘要：一、定义数据加载 my_dataset.py import torch.utils.data as data class MyDataset(data.Dataset): def __init__(self, texta, textb, label): self.texta = texta self 阅读全文

posted @ 2021-05-16 03:30 jasonzhangxianrong 阅读(762) 评论(0) 推荐(0) 编辑

(七)详解pytorch中的交叉熵损失函数nn.BCELoss()、nn.BCELossWithLogits()，二分类任务如何定义损失函数，如何计算准确率、如何预测

摘要：最近在做交叉熵的魔改，所以需要好好了解下交叉熵，遂有此文。关于交叉熵的定义请自行百度，相信点进来的你对其基本概念不陌生。本文将结合PyTorch，介绍离散形式的交叉熵在二分类以及多分类中的应用。注意，本文出现的二分类交叉熵和多分类交叉熵，本质上都是一个东西，二分类交叉熵可以看作是多分类交叉熵的一阅读全文

posted @ 2021-05-16 02:51 jasonzhangxianrong 阅读(32534) 评论(2) 推荐(2) 编辑

pandas(二)：在pandas中搜索包含关键词的行

摘要：一、代码 # -*- coding: UTF-8 -*- import json import pandas as pd """获得所有的文本""" def get_all_text(): file_path = "../datas/format/primary.json" names = [] r 阅读全文

posted @ 2021-05-14 18:43 jasonzhangxianrong 阅读(1089) 评论(0) 推荐(0) 编辑

NLP(十二)：word2vec+siamese-BiLSTM计算文本相似度

摘要：一、模型my_bilstm.py import torch from torch import nn class SiameseLSTM(nn.Module): def __init__(self, input_size): super(SiameseLSTM, self).__init__() s 阅读全文

posted @ 2021-05-13 22:44 jasonzhangxianrong 阅读(1041) 评论(4) 推荐(0) 编辑

NLP(十一)：sentence_BERT

摘要：一、引言 https://zhuanlan.zhihu.com/p/351678987 在自然语言处理NLP中，文本分类、聚类、表示学习、向量化、语义相似度或者说是文本相似度等等都有非常重要的应用价值。这些任务都是为了能从复杂的文本中，通过采用ML/DL的方法，学习到本文深层次的语义表示，从而更好地阅读全文

posted @ 2021-05-12 20:21 jasonzhangxianrong 阅读(2996) 评论(0) 推荐(1) 编辑

tensorflow(四十三)：自编码器和VAE

摘要：一、自编码器引入二、自编码器三种变体三、基本自编码器实战 import os import numpy as np import tensorflow as tf from tensorflow import keras from PIL import Image from matplotlib 阅读全文

posted @ 2021-05-05 14:42 jasonzhangxianrong 阅读(483) 评论(0) 推荐(0) 编辑

tensorflow(四十二)：宝可梦精灵自定义数据集加载、数据增强、数据正则化、迁移学习

摘要：一、数据集加载步骤 1、获得图片路径列表给x，获得标签列表给y. 2、将数据集装载到dataset。 3、打乱，用map()函数读取图片数据。（1） images and labels ▪ 𝑋 = [1. 𝑝𝑛𝑔, 2. 𝑝𝑛𝑔, 3. 𝑝𝑛𝑔, … ] ▪ 𝑌 = [4,9 阅读全文

posted @ 2021-05-04 16:07 jasonzhangxianrong 阅读(853) 评论(0) 推荐(1) 编辑

tensorflow(四十一)：LSTM与GRU

摘要：一、GRU原理二、LSTM_cell实战 import os os.environ['TF_CPP_MIN_LOG_LEVEL']='2' import tensorflow as tf import numpy as np from tensorflow import keras from te 阅读全文

posted @ 2021-05-03 16:42 jasonzhangxianrong 阅读(311) 评论(0) 推荐(0) 编辑

tensorflow(四十)：循环神经网络RNN

摘要：一、基础模型 1、这种模型，句子长的话，权值参数多、不能记住上下文信息。 2、参数共享，并增加记忆功能。 3、公式化表示RNN 二、RNN维度解析 1、如图，假设x的维度[batch, seq_len, embedding_len]是[b, 80, 100]，则在t时刻，Xt的形状是[b, 100] 阅读全文

posted @ 2021-05-03 12:00 jasonzhangxianrong 阅读(370) 评论(0) 推荐(0) 编辑

tensorflow(三十九)：实战——深度残差网络ResNet18

摘要：一、基础二、ResNet18 import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers, Sequential class BasicBlock(layers.Layer): d 阅读全文

posted @ 2021-05-02 17:11 jasonzhangxianrong 阅读(1842) 评论(0) 推荐(0) 编辑

tensorflow(三十八)：Batch Normalization

摘要：一、不进行归一化，某些W变化对loss影响较大二、进行归一化 1、可以看到，Batch Norm结束后，只得到三个数值，每个通道一个。 2、正常的Batch Norm过后，均值为0，方差为1，但是需要再加一个贝塔和伽马。（B,r）需要学出来。变成了均值为B，方差为r。三、用法 1、下面的cen 阅读全文

posted @ 2021-05-02 14:30 jasonzhangxianrong 阅读(195) 评论(0) 推荐(0) 编辑

tensorflow(三十七)：卷积神经网络——CIFAR100与VGG实战

摘要：一、网络结构二、代码 import os os.environ['TF_CPP_MIN_LOG_LEVEL']='2' import tensorflow as tf from tensorflow.keras import layers, optimizers, datasets, Sequen 阅读全文

posted @ 2021-05-02 13:37 jasonzhangxianrong 阅读(531) 评论(0) 推荐(0) 编辑

tensorflow(三十六)：池化与采样

摘要：一、最大池化的类方法和函数式方法二、上采样三、RELU的类风格和函数式风格阅读全文

posted @ 2021-05-01 18:33 jasonzhangxianrong 阅读(220) 评论(0) 推荐(0) 编辑

tensorflow(三十五)：卷积神经网络CNN

摘要：一、基本概念 1、看图：我们假设几个变量，N是卷积核的个数，B是batch_size，C是通道数，如RGB三个通道。如下所示：X中b是batch_size，最后一个3是通道数。 one K 中第一个3是通道数，后面两个3是卷积大小3*3. multi-K 中第一个16是N，指的是有16个卷积。b 阅读全文

posted @ 2021-05-01 17:20 jasonzhangxianrong 阅读(90) 评论(0) 推荐(0) 编辑

05 2021 档案

公告