随笔分类 -  NLP

自然语言处理
摘要:一、引入 1有很多指标可以用来衡量向量的相似度,比如余弦距离、汉明距离、欧氏距离等。 在图像、视频、文本、音频领域,做向量的相似性搜索,有很多应用点,比如:图像识别,语音识别、垃圾邮件过滤。 这种基于相似度检索的方案,不同于机器学习模型的方案。比如用有监督学习模型来做人脸识别,模型的可解释性较低,而 阅读全文
posted @ 2021-08-04 13:20 jasonzhangxianrong 阅读(1519) 评论(0) 推荐(0) 编辑
摘要:一、类别编码必须是0开始 import argparse import torch import tqdm from root_path import root import os import pandas as pd import json from sklearn.model_selectio 阅读全文
posted @ 2021-07-28 13:48 jasonzhangxianrong 阅读(1006) 评论(0) 推荐(0) 编辑
摘要:Bert是非常强化的NLP模型,在文本分类的精度非常高。本文将介绍Bert中文文本分类的基础步骤,文末有代码获取方法。 步骤1:读取数据 本文选取了头条新闻分类数据集来完成分类任务,此数据集是根据头条新闻的标题来完成分类。 101 京城最值得你来场文化之旅的博物馆_!_保利集团,马未都,中国科学技术 阅读全文
posted @ 2021-07-27 17:29 jasonzhangxianrong 阅读(5270) 评论(0) 推荐(0) 编辑
摘要:背景 BERT的问世向世人宣告了无监督预训练的语言模型在众多NLP任务中成为“巨人肩膀”的可能性,接踵而出的GPT2、XL-Net则不断将NLP从业者的期望带向了新的高度。得益于这些力作模型的开源,使得我们在了解其论文思想的基础上,可以借力其凭借强大算力预训练的模型从而快速在自己的数据集上开展实验, 阅读全文
posted @ 2021-07-27 17:26 jasonzhangxianrong 阅读(1862) 评论(0) 推荐(0) 编辑
摘要:上一篇文章中,我详细讲解了 BertModel。 在今天这篇文章,我会使用 BertForSequenceClassification,在自己的训练集上训练情感分类模型。 数据集来源于 https://github.com/bojone/bert4keras/tree/master/examples 阅读全文
posted @ 2021-07-27 17:18 jasonzhangxianrong 阅读(16765) 评论(2) 推荐(1) 编辑
摘要:一 、算法介绍 左边deep network,右边FM,所以叫deepFM 包含两个部分: Part1: FM(Factorization machines),因子分解机部分 在传统的一阶线性回归之上,加了一个二次项,可以表达两两特征的相互关系。 这里的公式可以简化,减少计算量,下图来至于网络。 P 阅读全文
posted @ 2021-07-05 11:31 jasonzhangxianrong 阅读(1763) 评论(0) 推荐(0) 编辑
摘要:近年来,自然语言生成 (NLG) 取得了令人难以置信的进步。 2019 年初,OpenAI 发布了 GPT-2,这是一个巨大的预训练模型(1.5B 参数),能够生成类似人类质量的文本。 Generative Pretrained Transformer 2 (GPT-2) 顾名思义,基于 Trans 阅读全文
posted @ 2021-06-30 10:07 jasonzhangxianrong 阅读(8111) 评论(0) 推荐(0) 编辑
摘要:一、Sentence_Bert代码 from sentence_transformers import SentenceTransformer, SentencesDataset, util from sentence_transformers import InputExample, evalua 阅读全文
posted @ 2021-06-22 17:13 jasonzhangxianrong 阅读(792) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 1、为什么要因为注意力机制 在Attention诞生之前,已经有CNN和RNN及其变体模型了,那为什么还要引入attention机制?主要有两个方面的原因,如下: (1)计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。 (2)优化 阅读全文
posted @ 2021-06-22 13:20 jasonzhangxianrong 阅读(4745) 评论(0) 推荐(0) 编辑
摘要:一、基于gensim 1、模型类 import os import jieba import pickle import logging import numpy as np from gensim import corpora, models, similarities import utils. 阅读全文
posted @ 2021-06-18 14:11 jasonzhangxianrong 阅读(1414) 评论(0) 推荐(0) 编辑
摘要:一、任务描述 关键短语提取(Keyphrase Extraction),顾名思义,就是给定一篇文本,提取其中的关键短语。这项工作在新闻、学术论文中非常常见。比如,给定如下一篇新闻: 我们能够从中提取到以下一些关键短语,以及相关的权重信息: 这样的操作很容易让人联想到关键词提取,两者都是从文本中找出概 阅读全文
posted @ 2021-06-15 12:43 jasonzhangxianrong 阅读(3080) 评论(0) 推荐(0) 编辑
摘要:与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不会改变其语义。语义不变变换的存在使增强成为计算机视觉研究中的一个重要工具。 我很好奇是否有人尝试开发NLP的增强技术,并研究了现有的文献。在这篇文章中,我将分享我对 阅读全文
posted @ 2021-06-15 09:43 jasonzhangxianrong 阅读(350) 评论(0) 推荐(0) 编辑
摘要:一、Query生成的目的及意义? 在问答系统任务(问答机器人)中,我们往往会人为地配置一些常用并且描述清晰的问题及其对应的回答,我们将这些配置好的问题称之为“标准问”。当用户进行提问时,常常将用户的问题与所有配置好的标准问进行相似度计算,找出与用户问题最相似的标准问,并返回其答案给用户,这样就完成了 阅读全文
posted @ 2021-05-31 10:57 jasonzhangxianrong 阅读(3445) 评论(3) 推荐(0) 编辑
摘要:参考了pytorch官方文档:https://pytorch.org/tutorials/beginner/chatbot_tutorial.html 一、概述 使用pycharm编写项目,代码分为四个文件:process.py、neural_network.py、train.py、evaluate 阅读全文
posted @ 2021-05-30 15:14 jasonzhangxianrong 阅读(2676) 评论(4) 推荐(1) 编辑
摘要:一、数据: word2vec训练数据格式说明:对于文本文件,基本格式是一行一句话,需要分好词。 (1)如果按字级别训练,将汉字分隔开就行。按字分割: line_str = line.replace(" ", "") cn = " ".join(line_str) (2)按词分割 方法有很多,jieb 阅读全文
posted @ 2021-05-24 10:17 jasonzhangxianrong 阅读(327) 评论(0) 推荐(0) 编辑
摘要:一、概述 首先,我们导入需要的包,包括模型,优化器,梯度求导等,将数据类型全部转化成tensor类型 import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch.autogr 阅读全文
posted @ 2021-05-21 15:17 jasonzhangxianrong 阅读(539) 评论(0) 推荐(0) 编辑
摘要:Faiss库是由 Facebook 开发的适用于稠密向量匹配的开源库,支持 c++ 与 python 调用。 通过实验证实,128维的125W向量,在 CPU 下检索耗时约70ms,经过 GPU 加速后检索耗时仅5ms。 一、安装 Faiss 支持直接通过 conda 安装 python 接口,以及 阅读全文
posted @ 2021-05-21 11:39 jasonzhangxianrong 阅读(3572) 评论(0) 推荐(0) 编辑
摘要:一、准备数据集 models\esim_model\my_dataset.py import torch.utils.data as data class MyDataset(data.Dataset): def __init__(self, texta, textb, label): self.t 阅读全文
posted @ 2021-05-16 14:13 jasonzhangxianrong 阅读(960) 评论(3) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/87760325 https://zhuanlan.zhihu.com/p/89232880 一、前言 Simple Transformers是Hugging Face在的Transformers库的基础上构建的。 Hugging Face 阅读全文
posted @ 2021-05-16 03:55 jasonzhangxianrong 阅读(1187) 评论(0) 推荐(0) 编辑
摘要:一、定义数据加载 my_dataset.py import torch.utils.data as data class MyDataset(data.Dataset): def __init__(self, texta, textb, label): self.texta = texta self 阅读全文
posted @ 2021-05-16 03:30 jasonzhangxianrong 阅读(765) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示