文本分类 - 随笔分类 - jasonzhangxianrong

NLP(三十八)：tfidf_CountVectorizer 与 TfidfTransformer 保存和测试

摘要：做nlp的时候，如果用到tf-idf，sklearn中用CountVectorizer与TfidfTransformer两个类，下面对和两个类进行讲解一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法，在测试集用阅读全文

posted @ 2021-11-11 10:52 jasonzhangxianrong 阅读(495) 评论(0) 推荐(0) 编辑

文本分类（七）：从理论到实践解决文本分类中的样本不均衡问题

摘要：摘要：本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题；然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例，模型层面主要是通过加权Loss，包括基于类别Loss、Focal Loss 阅读全文

posted @ 2021-09-06 15:44 jasonzhangxianrong 阅读(2396) 评论(0) 推荐(0) 编辑

文本分类（六）：不平衡文本分类，Focal Loss理论及PyTorch实现

摘要：转载于：https://zhuanlan.zhihu.com/p/361152151 转载于：https://www.jianshu.com/p/30043bcc90b6 摘要：本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题；然后重点从数据层面和阅读全文

posted @ 2021-09-01 14:14 jasonzhangxianrong 阅读(3369) 评论(0) 推荐(0) 编辑

文本分类（五）：transformers库BERT实战，基于BertForSequenceClassification

摘要：一、代码一 import pandas as pd import codecs from config.root_path import root import os from utils.data_process import get_label,text_preprocess import js 阅读全文

posted @ 2021-08-11 10:41 jasonzhangxianrong 阅读(682) 评论(0) 推荐(0) 编辑

文本分类（四）：BERT微调（转载于skimai）

摘要：地址：https://skimai.com/fine-tuning-bert-for-sentiment-analysis/ Tutorial: Fine tuning BERT for Sentiment Analysis Originally published by Skim AI’s Mac 阅读全文

posted @ 2021-08-10 09:13 jasonzhangxianrong 阅读(257) 评论(0) 推荐(0) 编辑

文本分类（三）：使用Pytorch进行文本分类——Transformer

摘要：一、前言文本分类不是生成式的任务，因此只使用Transformer的编码部分（Encoder）进行特征提取。如果不熟悉Transformer模型的原理请移步。二、架构图三、代码 1、自注意力模型 class TextSlfAttnNet(nn.Module): ''' 自注意力模型 ''' d 阅读全文

posted @ 2021-08-09 12:38 jasonzhangxianrong 阅读(827) 评论(0) 推荐(0) 编辑

文本分类（二）：使用Pytorch进行文本分类——TextCNN

摘要：一、架构图二、代码实现 class TextCNN(nn.Module): def __init__(self, config:TCNNConfig, char_size = 5000, pinyin_size=5000): super(TextCNN, self).__init__() self 阅读全文

posted @ 2021-08-09 12:31 jasonzhangxianrong 阅读(978) 评论(0) 推荐(0) 编辑

文本分类（一）：使用Pytorch进行文本分类——BiLSTM+Attention

摘要：一、架构图二、代码 class TextBILSTM(nn.Module): def __init__(self, config:TRNNConfig, char_size = 5000, pinyin_size = 5000): super(TextBILSTM, self).__init__( 阅读全文

posted @ 2021-08-09 12:27 jasonzhangxianrong 阅读(835) 评论(0) 推荐(0) 编辑

随笔分类 - 文本分类

公告