随笔分类 -  文本分类

基于pytorch的文本分类
摘要:做nlp的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解 一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法,在测试集用 阅读全文
posted @ 2021-11-11 10:52 jasonzhangxianrong 阅读(495) 评论(0) 推荐(0) 编辑
摘要:摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss 阅读全文
posted @ 2021-09-06 15:44 jasonzhangxianrong 阅读(2396) 评论(0) 推荐(0) 编辑
摘要:转载于:https://zhuanlan.zhihu.com/p/361152151 转载于:https://www.jianshu.com/p/30043bcc90b6 摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和 阅读全文
posted @ 2021-09-01 14:14 jasonzhangxianrong 阅读(3369) 评论(0) 推荐(0) 编辑
摘要:一、代码一 import pandas as pd import codecs from config.root_path import root import os from utils.data_process import get_label,text_preprocess import js 阅读全文
posted @ 2021-08-11 10:41 jasonzhangxianrong 阅读(682) 评论(0) 推荐(0) 编辑
摘要:地址:https://skimai.com/fine-tuning-bert-for-sentiment-analysis/ Tutorial: Fine tuning BERT for Sentiment Analysis Originally published by Skim AI’s Mac 阅读全文
posted @ 2021-08-10 09:13 jasonzhangxianrong 阅读(257) 评论(0) 推荐(0) 编辑
摘要:一、前言 文本分类不是生成式的任务,因此只使用Transformer的编码部分(Encoder)进行特征提取。如果不熟悉Transformer模型的原理请移步。 二、架构图 三、代码 1、自注意力模型 class TextSlfAttnNet(nn.Module): ''' 自注意力模型 ''' d 阅读全文
posted @ 2021-08-09 12:38 jasonzhangxianrong 阅读(827) 评论(0) 推荐(0) 编辑
摘要:一、架构图 二、代码实现 class TextCNN(nn.Module): def __init__(self, config:TCNNConfig, char_size = 5000, pinyin_size=5000): super(TextCNN, self).__init__() self 阅读全文
posted @ 2021-08-09 12:31 jasonzhangxianrong 阅读(978) 评论(0) 推荐(0) 编辑
摘要:一、架构图 二、代码 class TextBILSTM(nn.Module): def __init__(self, config:TRNNConfig, char_size = 5000, pinyin_size = 5000): super(TextBILSTM, self).__init__( 阅读全文
posted @ 2021-08-09 12:27 jasonzhangxianrong 阅读(835) 评论(0) 推荐(0) 编辑