摘要: ERNIE 相关链接:ERNIE官方使用介绍,ERNIE项目地址 基于transformer的encoder,主要思想是将文本中已有的知识融入到模型训练中,因此采用实体mask的方式(实体指人名,地名等词) 预训练 模型结构图如下所示 文本中已有的知识主要有人名,地名等实体,这些词本来就蕴含一些信息 阅读全文
posted @ 2022-04-08 11:19 启林O_o 阅读(1208) 评论(0) 推荐(0) 编辑
摘要: 预训练模型 预训练是一种迁移学习的思想,在一个大数据集上训练大模型,之后可以利用这个训练好的模型处理其他任务。预训练模型的使用方法一般有: 用作特征提取:利用预训练模型提取数据特征,再将这些特征用作自己模型的训练,如word2vec,GLOVE 使用模型结构参数:使用预训练模型的结构和参数,再输入自 阅读全文
posted @ 2022-04-08 11:13 启林O_o 阅读(599) 评论(0) 推荐(0) 编辑
摘要: transformer 参考: https://www.cnblogs.com/erable/p/15072941.html https://www.cnblogs.com/xiximayou/p/13978859.html 在论文Attention Is All You Need中提出了trans 阅读全文
posted @ 2022-04-08 10:58 启林O_o 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 本节内容有些抽象,自己也可能理解不到位,可能有些错误,请批判性参考 seq2seq 分为encoder和decoder两部分,如下图所示,每一个部分可以使用CNN,RNN,LSTM等模型,输入2针对不同情况可有可无,模型在翻译,文本摘要生成等方面有广泛应用。 在编码器encoder中可以对输入内容编 阅读全文
posted @ 2022-04-08 10:31 启林O_o 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 循环卷积神经网络RCNN 1、CNN与RNN缺点 CNN通过窗口获取特征,窗口尺寸不合适就会捕获不到好特征,窗口也不能太大,这样就捕获不到全局的特征,所以它类似于传统的N-gram RNN使用最后的输出作为特征,使得序列后的词会比前面的词更加重要,从而影响捕获准确的特征 2、CNN与RNN优点 CN 阅读全文
posted @ 2022-04-08 10:29 启林O_o 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 深度卷积网络DPCNN 在NLP文本分类学习笔记3中介绍了CNN的结构和如何用于文本分类,但是也存在一些问题(在之后将看到)。 在这篇论文Deep Pyramid Convolutional Neural Networks for Text Categorization中提出了DPCNN模型,其结构 阅读全文
posted @ 2022-04-08 10:28 启林O_o 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络RNN RNN拥有一个环路,数据可以通过这个环路不断循环,因此拥有了记忆性,所以更针对序列数据。序列数据上一刻的输出和下一刻的数据一起作为新的输出,结构如下图所示,$X_{t}$和$H_{t}$为t时刻的输入和输出,输入的序列数据为$X_{1}X_{2}X_{3}……X_{t}$ 但是R 阅读全文
posted @ 2022-04-08 10:26 启林O_o 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 卷积神经网络CNN CNN是前馈神经网络,包含输入层,卷积层,池化层,全连接层,输出层 1、输入层,以输入彩色图像为例,输入数据为二维,包含RGB三个通道 2、卷积层,使用多个不同权重,大小的卷积核,平移固定的步长,提取图像的特征(对应位置相乘求和,如下图所示,3*3的卷积核对5*5的图像计算,步长 阅读全文
posted @ 2022-04-08 10:23 启林O_o 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 多层感知机MLP MLP是最简单的深度学习模型,有输入层,多个隐藏层和输出层,可以采用任意激活函数。它是前馈神经网络,基于反向传播学习。简单的例子如下: 基于MLP的深度平均网络DAN 在论文Deep Unordered Composition Rivals Syntactic Methods fo 阅读全文
posted @ 2022-04-08 10:21 启林O_o 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1. 分词 文本需要经过处理,成为计算机理解的语言。 对于中文文本首先需要分词。如:“安全的出行环境”分词后为“安全 的 出行 环境”。(同时也应使用停用词表,罕见词表对分词结果进行过滤) 但是这样处理后会忽略词序,造成信息的损失。所以也可以使用N-gram,可以保留一定的词序,一般为2-gram。 阅读全文
posted @ 2022-04-08 10:20 启林O_o 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 本系列文章参考了github项目Chinese-Text-Classification-Pytorch 数据集及划分 使用来自github中的online_shopping_10_cats中文数据集,数据集包含10个类别,共6万多条评论数据,正、负向评论各约3万条。10个类别为:包括书籍、平板、手机 阅读全文
posted @ 2022-04-08 10:19 启林O_o 阅读(1064) 评论(0) 推荐(0) 编辑