上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 23 下一页
摘要: 目录 背景 vanilla Transformer Transformer-XL解析 总结 一句话简介:Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positio 阅读全文
posted @ 2020-06-23 20:15 忆凡人生 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: 目录 安装TexLive 安装编辑环境VScode 简单使用 常用公式链接 需要分别下载并安装 TexLive,Vscode 一、安装TexLive TexLive安装教程:https://blog.csdn.net/so_geili/article/details/72636466 TexLive 阅读全文
posted @ 2020-06-21 15:37 忆凡人生 阅读(2231) 评论(0) 推荐(0) 编辑
摘要: 目录 BERT简介 BERT概述 BERT解析 GLUE语料集 模型比较 总结 一句话简介:2018年年底发掘的自编码模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入双向transformer(借用了ELMo的双向思路,GPT的transformer 阅读全文
posted @ 2020-06-20 10:29 忆凡人生 阅读(5065) 评论(0) 推荐(0) 编辑
摘要: 一句话简介:2018年发掘的自回归模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入单向transformer中。 一、GPT简介 1.1 背景 目前大多数深度学习方法依靠大量的人工标注信息,这限制了在很多领域的应用。此外,即使在可获得相当大的监督语料 阅读全文
posted @ 2020-06-20 10:27 忆凡人生 阅读(16739) 评论(0) 推荐(1) 编辑
摘要: 目录 ELMo简介 ELMo模型概述 ELMo模型解析 ELMo步骤 总结 一句话简介:2018年发掘的自回归模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入双向LSTM,损失函数基于两个LSTM判断的loss求和,最后通过softmax求解。 一、 阅读全文
posted @ 2020-06-20 10:25 忆凡人生 阅读(9127) 评论(0) 推荐(1) 编辑
摘要: 目录 transformer简介 transformer模型分析 相关对比和问题 一句话简介:2017年(Atention is all you need)引出,采用了 从Encoder(2个子层)-Decoder(3个子层)架构,包含几个重要组件:Self-Attention,Multi-Head 阅读全文
posted @ 2020-06-20 10:21 忆凡人生 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 目录 Attention介绍 Attention原理 Attention的其他应用 代码尝试 一句话简介:九几年提出的概念,2014年在视觉领域火了以后,逐步引入NLP中,2017年的《Attention is all you need》引爆改结构,初步思想也很简单,就是提高某个区域的权重系数,有L 阅读全文
posted @ 2020-06-20 10:17 忆凡人生 阅读(5549) 评论(0) 推荐(0) 编辑
摘要: 目录 Seq2Seq介绍 原理解析和进化发展过程 Seq2Seq的预处理 seq2seq模型预测 一句话简介:2014年提出的Seq2Seq(Sequence to Sequence), 就是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。 一般用于机器翻译,图片描述,对话等场景。早期基 阅读全文
posted @ 2020-06-20 10:13 忆凡人生 阅读(1090) 评论(0) 推荐(1) 编辑
摘要: 目录 传统的自然语言处理模型 NLP的卷积神经网络(textCNN) 卷积层的最大池化问题 testCNN的应用 一句话简介:借鉴视觉的CNN用于自然语言处理中,通过不同高度(词数量)的卷积核提取特征,合并池化压缩至分类,优势是速度提升很多。 一、传统的自然语言处理模型 1)传统的词袋模型或者连续词 阅读全文
posted @ 2020-06-16 23:20 忆凡人生 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 目录 textRNN简介 textRNN网络结构 总结 一句话简介:textRNN指的是利用RNN循环神经网络解决文本分类问题,通常使用LSTM和GRU这种变形的RNN,而且使用双向,两层架构居多。 一、textRNN简介 这里的文本可以一个句子,文档(短文本,若干句子)或篇章(长文本),因此每段文 阅读全文
posted @ 2020-06-16 23:18 忆凡人生 阅读(1927) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 23 下一页