摘要:
目录 BERT简介 BERT概述 BERT解析 GLUE语料集 模型比较 总结 一句话简介:2018年年底发掘的自编码模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入双向transformer(借用了ELMo的双向思路,GPT的transformer 阅读全文
摘要:
一句话简介:2018年发掘的自回归模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入单向transformer中。 一、GPT简介 1.1 背景 目前大多数深度学习方法依靠大量的人工标注信息,这限制了在很多领域的应用。此外,即使在可获得相当大的监督语料 阅读全文
摘要:
目录 ELMo简介 ELMo模型概述 ELMo模型解析 ELMo步骤 总结 一句话简介:2018年发掘的自回归模型,采用预训练和下游微调方式处理NLP任务;解决动态语义问题,word embedding 送入双向LSTM,损失函数基于两个LSTM判断的loss求和,最后通过softmax求解。 一、 阅读全文
摘要:
目录 transformer简介 transformer模型分析 相关对比和问题 一句话简介:2017年(Atention is all you need)引出,采用了 从Encoder(2个子层)-Decoder(3个子层)架构,包含几个重要组件:Self-Attention,Multi-Head 阅读全文
摘要:
目录 Attention介绍 Attention原理 Attention的其他应用 代码尝试 一句话简介:九几年提出的概念,2014年在视觉领域火了以后,逐步引入NLP中,2017年的《Attention is all you need》引爆改结构,初步思想也很简单,就是提高某个区域的权重系数,有L 阅读全文
摘要:
目录 Seq2Seq介绍 原理解析和进化发展过程 Seq2Seq的预处理 seq2seq模型预测 一句话简介:2014年提出的Seq2Seq(Sequence to Sequence), 就是一种能够根据给定的序列,通过特定的方法生成另一个序列的方法。 一般用于机器翻译,图片描述,对话等场景。早期基 阅读全文