2021 年 4月 7 日随笔档案 - 农夫三拳有點疼

XLNet模型

摘要： 1. 什么是XLNet XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。总之，XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型，最终，XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳阅读全文

posted @ 2021-04-07 14:54 农夫三拳有點疼阅读(544) 评论(0) 推荐(0) 编辑

BERT模型

摘要： 1. 什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers，是Google2018年提出的预训练模型，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在p 阅读全文

posted @ 2021-04-07 14:41 农夫三拳有點疼阅读(869) 评论(0) 推荐(0) 编辑

Transformer模型

摘要： 1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Tr 阅读全文

posted @ 2021-04-07 14:28 农夫三拳有點疼阅读(407) 评论(0) 推荐(0) 编辑

注意力机制(Attention Mechanism)

摘要： 1. 什么是Attention机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。现在，让我们再次思考那⼀节提到的翻译例⼦：输⼊为英语序列“They”“are”“watching” 阅读全文

posted @ 2021-04-07 14:27 农夫三拳有點疼阅读(950) 评论(0) 推荐(0) 编辑

序列到序列模型(seq2seq)

摘要： 1. 什么是seq2seq 在⾃然语⾔处理的很多应⽤中，输⼊和输出都可以是不定⻓序列。以机器翻译为例，输⼊可以是⼀段不定⻓的英语⽂本序列，输出可以是⼀段不定⻓的法语⽂本序列，例如：英语输⼊：“They”、“are”、“watching”、“.” 法语输出：“Ils”、“regardent”、“.” 阅读全文

posted @ 2021-04-07 08:32 农夫三拳有點疼阅读(1980) 评论(0) 推荐(0) 编辑

农夫三拳有點疼

XLNet模型

BERT模型

Transformer模型

注意力机制(Attention Mechanism)

序列到序列模型(seq2seq)

导航