NLP文本分类学习笔记3：基于CNN的文本分类

卷积神经网络CNN

CNN是前馈神经网络，包含输入层，卷积层，池化层，全连接层，输出层
1、输入层，以输入彩色图像为例，输入数据为二维，包含RGB三个通道
2、卷积层，使用多个不同权重，大小的卷积核，平移固定的步长，提取图像的特征（对应位置相乘求和，如下图所示，3*3的卷积核对5*5的图像计算，步长为1，为了更好捕获边缘特征，实际中会对图像进行填充），最后输入到激活函数

3、池化层，用于特征过滤与选取，降低维度，常见的有最大池化，平均池化等，最大池化是选取区域中的最大值代替该区域，平均池化是求区域中的平均值代替该区域
以2*2的，步长为1的池化为例，如下图：

4、最后通过全连接层和输出层，组合计算特征，完成分类等任务

基于CNN的文本分类

1、在论文Convolutional Neural Networks for Sentence Classification中提出了CNN用于文本分类的方法
2、在论文A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification讨论了只包含单层卷积的CNN模型中各个参数针对文本分类的影响，并给出了对于参数设置相对好的建议（下图来源于本论文）
3、以下图为例介绍用于文本分类的CNN结构过程。

对于I like this movie very much !这句话，将每个词用5维的词向量表示
在卷积层使用各有两个，尺寸为4*5，3*5，2*5的卷积核（共六个）对词向量组成的句子矩阵进行卷积，最后使用激活函数
在池化层，对于得到的每个特征使用最大池化，并拼接在一起，得到一个六维向量
最后通过softmax函数进行二分类

主要思想

卷积的过程实际提取了N-Gram特征，如上图的卷积核大小为4，3，2：以2为例，实际提取了句子I like，like this，this movie等等这样一系列特征。

pytorch实现基于CNN的文本分类

模型结构参数如下，对于10分类的任务达到了87.46%的准确率。关于代码更详细的说明参考：NLP文本分类学习笔记0：数据预处理及训练说明

每个输入的批次为【128，32】128为批次大小，32为句子填充截断后统一长度
经过词嵌入层，数据变为【128，32，200】200为word2vec预训练词向量维度
为了便于使用nn.Conv2d（其中需要通道数），所以使用unsqueeze(1)为数据增加一个维度变为【128，1，32，200】
在卷积层，使用不同大小（2*200，3*200，4*200）的卷积核进行计算，每个卷积核使用256个
以卷积核大小为2*200为例，数据计算后为【128，256，31，1】，经过激活函数后，使用squeeze(3)去除最后一个维度，变为【128，256，31】
在池化层，使用大小为31的1为最大池化，数据变为【128，256，1】，使用squeeze(2)去除最后一个维度，变为【128，256】
在三种卷积核都完成后，将特征进行列拼接，数据变为【128，768】（256*3）
最后通过dropout与全连接层输出

import json
import pickle
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np

class Config(object):

    """配置参数"""
    def __init__(self, embedding_pre):
        self.embedding_path = 'data/embedding.npz'
        self.embedding_model_path = "mymodel/word2vec.model"

        self.train_path = 'data/train.df'  # 训练集
        self.dev_path = 'data/valid.df'  # 验证集
        self.test_path = 'data/test.df'  # 测试集

        self.class_path = 'data/class.json'  # 类别名单
        self.vocab_path = 'data/vocab.pkl'  # 词表
        self.save_path ='mymodel/cnn.pth'        # 模型训练结果
        self.embedding_pretrained = torch.tensor(np.load(self.embedding_path, allow_pickle=True)["embeddings"].astype(
            'float32')) if embedding_pre == True else None  # 预训练词向量
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 设备

        self.dropout = 0.5  # 随机失活
        self.num_classes = len(json.load(open(self.class_path, encoding='utf-8')))  # 类别数
        self.n_vocab = 0  # 词表大小，在运行时赋值
        self.epochs = 10  # epoch数
        self.batch_size = 128  # mini-batch大小
        self.maxlen = 32  # 每句话处理成的长度(短填长切)
        self.learning_rate = 1e-3  # 学习率
        self.embed_size = self.embedding_pretrained.size(1) \
            if self.embedding_pretrained is not None else 200  # 字向量维度
        self.filter_sizes = (2, 3, 4)                                   # 卷积核尺寸
        self.num_filters = 256                                          # 卷积核数量(channels数)


class Model(nn.Module):
    def __init__(self, config):
        super(Model, self).__init__()
        if config.embedding_pretrained is not None:
            self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)
        else:
            vocab = pickle.load(open(config.vocab_path, 'rb'))
            config.n_vocab=len(vocab.dict)
            self.embedding = nn.Embedding(config.n_vocab, config.embed_size, padding_idx=config.n_vocab - 1)
        self.convs = nn.ModuleList(
            [nn.Conv2d(1, config.num_filters, (k, config.embed_size)) for k in config.filter_sizes])
        self.dropout = nn.Dropout(config.dropout)
        self.fc = nn.Linear(config.num_filters * len(config.filter_sizes), config.num_classes)

    def conv_and_pool(self, x, conv):
        x = F.relu(conv(x)).squeeze(3)
        x = F.max_pool1d(x, x.size(2)).squeeze(2)
        return x

    def forward(self, x):
        out = self.embedding(x)
        out = out.unsqueeze(1)
        out = torch.cat([self.conv_and_pool(out, conv) for conv in self.convs], 1)
        out = self.dropout(out)
        out = self.fc(out)
        return out

posted @ 2022-04-08 10:23 启林O_o 阅读(216) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

启林O_o忍住诱惑，耐住寂寞

忍住诱惑，耐住寂寞。

NLP文本分类学习笔记3：基于CNN的文本分类

卷积神经网络CNN

基于CNN的文本分类

主要思想

pytorch实现基于CNN的文本分类

公告