随笔分类 - 文本分类
基于pytorch的文本分类
摘要:做nlp的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解 一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法,在测试集用
阅读全文
摘要:摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss
阅读全文
摘要:转载于:https://zhuanlan.zhihu.com/p/361152151 转载于:https://www.jianshu.com/p/30043bcc90b6 摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和
阅读全文
摘要:一、代码一 import pandas as pd import codecs from config.root_path import root import os from utils.data_process import get_label,text_preprocess import js
阅读全文
摘要:地址:https://skimai.com/fine-tuning-bert-for-sentiment-analysis/ Tutorial: Fine tuning BERT for Sentiment Analysis Originally published by Skim AI’s Mac
阅读全文
摘要:一、前言 文本分类不是生成式的任务,因此只使用Transformer的编码部分(Encoder)进行特征提取。如果不熟悉Transformer模型的原理请移步。 二、架构图 三、代码 1、自注意力模型 class TextSlfAttnNet(nn.Module): ''' 自注意力模型 ''' d
阅读全文
摘要:一、架构图 二、代码实现 class TextCNN(nn.Module): def __init__(self, config:TCNNConfig, char_size = 5000, pinyin_size=5000): super(TextCNN, self).__init__() self
阅读全文
摘要:一、架构图 二、代码 class TextBILSTM(nn.Module): def __init__(self, config:TRNNConfig, char_size = 5000, pinyin_size = 5000): super(TextBILSTM, self).__init__(
阅读全文