2022 年 4月 8 日随笔档案 - 启林O_o

2022年4月8日

摘要： ERNIE 相关链接：ERNIE官方使用介绍，ERNIE项目地址基于transformer的encoder，主要思想是将文本中已有的知识融入到模型训练中，因此采用实体mask的方式（实体指人名，地名等词）预训练模型结构图如下所示文本中已有的知识主要有人名，地名等实体，这些词本来就蕴含一些信息阅读全文

posted @ 2022-04-08 11:19 启林O_o 阅读(1208) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记7：基于预训练模型的文本分类

摘要：预训练模型预训练是一种迁移学习的思想，在一个大数据集上训练大模型，之后可以利用这个训练好的模型处理其他任务。预训练模型的使用方法一般有：用作特征提取：利用预训练模型提取数据特征，再将这些特征用作自己模型的训练，如word2vec，GLOVE 使用模型结构参数：使用预训练模型的结构和参数，再输入自阅读全文

posted @ 2022-04-08 11:13 启林O_o 阅读(599) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记6：基于tansformer的文本分类

摘要： transformer 参考: https://www.cnblogs.com/erable/p/15072941.html https://www.cnblogs.com/xiximayou/p/13978859.html 在论文Attention Is All You Need中提出了trans 阅读全文

posted @ 2022-04-08 10:58 启林O_o 阅读(457) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记5：带attention的文本分类

摘要：本节内容有些抽象，自己也可能理解不到位，可能有些错误，请批判性参考 seq2seq 分为encoder和decoder两部分，如下图所示，每一个部分可以使用CNN，RNN，LSTM等模型，输入2针对不同情况可有可无，模型在翻译，文本摘要生成等方面有广泛应用。在编码器encoder中可以对输入内容编阅读全文

posted @ 2022-04-08 10:31 启林O_o 阅读(550) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记4.1：基于RCNN的文本分类

摘要：循环卷积神经网络RCNN 1、CNN与RNN缺点 CNN通过窗口获取特征，窗口尺寸不合适就会捕获不到好特征，窗口也不能太大，这样就捕获不到全局的特征，所以它类似于传统的N-gram RNN使用最后的输出作为特征，使得序列后的词会比前面的词更加重要，从而影响捕获准确的特征 2、CNN与RNN优点 CN 阅读全文

posted @ 2022-04-08 10:29 启林O_o 阅读(117) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记3.1：基于DPCNN的文本分类

摘要：深度卷积网络DPCNN 在NLP文本分类学习笔记3中介绍了CNN的结构和如何用于文本分类，但是也存在一些问题（在之后将看到）。在这篇论文Deep Pyramid Convolutional Neural Networks for Text Categorization中提出了DPCNN模型，其结构阅读全文

posted @ 2022-04-08 10:28 启林O_o 阅读(238) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记4：基于RNN的文本分类

摘要：循环神经网络RNN RNN拥有一个环路，数据可以通过这个环路不断循环，因此拥有了记忆性，所以更针对序列数据。序列数据上一刻的输出和下一刻的数据一起作为新的输出，结构如下图所示，$X_{t}$和$H_{t}$为t时刻的输入和输出，输入的序列数据为$X_{1}X_{2}X_{3}……X_{t}$ 但是R 阅读全文

posted @ 2022-04-08 10:26 启林O_o 阅读(307) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记3：基于CNN的文本分类

摘要：卷积神经网络CNN CNN是前馈神经网络，包含输入层，卷积层，池化层，全连接层，输出层 1、输入层，以输入彩色图像为例，输入数据为二维，包含RGB三个通道 2、卷积层，使用多个不同权重，大小的卷积核，平移固定的步长，提取图像的特征（对应位置相乘求和，如下图所示，3*3的卷积核对5*5的图像计算，步长阅读全文

posted @ 2022-04-08 10:23 启林O_o 阅读(216) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记2：基于MLP的文本分类

摘要：多层感知机MLP MLP是最简单的深度学习模型，有输入层，多个隐藏层和输出层，可以采用任意激活函数。它是前馈神经网络，基于反向传播学习。简单的例子如下：基于MLP的深度平均网络DAN 在论文Deep Unordered Composition Rivals Syntactic Methods fo 阅读全文

posted @ 2022-04-08 10:21 启林O_o 阅读(404) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记1：文本表示

摘要： 1. 分词文本需要经过处理，成为计算机理解的语言。对于中文文本首先需要分词。如：“安全的出行环境”分词后为“安全的出行环境”。（同时也应使用停用词表，罕见词表对分词结果进行过滤）但是这样处理后会忽略词序，造成信息的损失。所以也可以使用N-gram，可以保留一定的词序，一般为2-gram。阅读全文

posted @ 2022-04-08 10:20 启林O_o 阅读(238) 评论(0) 推荐(0) 编辑

NLP文本分类学习笔记0：数据预处理及训练说明

摘要：本系列文章参考了github项目Chinese-Text-Classification-Pytorch 数据集及划分使用来自github中的online_shopping_10_cats中文数据集，数据集包含10个类别，共6万多条评论数据，正、负向评论各约3万条。10个类别为：包括书籍、平板、手机阅读全文

posted @ 2022-04-08 10:19 启林O_o 阅读(1064) 评论(0) 推荐(0) 编辑

启林O_o忍住诱惑，耐住寂寞

忍住诱惑，耐住寂寞。

公告