2021年4月7日

XLNet模型

摘要: 1. 什么是XLNet XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,最终,XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳 阅读全文

posted @ 2021-04-07 14:54 农夫三拳有點疼 阅读(544) 评论(0) 推荐(0) 编辑

BERT模型

摘要: 1. 什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在p 阅读全文

posted @ 2021-04-07 14:41 农夫三拳有點疼 阅读(869) 评论(0) 推荐(0) 编辑

Transformer模型

摘要: 1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Tr 阅读全文

posted @ 2021-04-07 14:28 农夫三拳有點疼 阅读(407) 评论(0) 推荐(0) 编辑

注意力机制(Attention Mechanism)

摘要: 1. 什么是Attention机制 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。 现在,让我们再次思考那⼀节提到的翻译例⼦:输⼊为英语序列“They”“are”“watching” 阅读全文

posted @ 2021-04-07 14:27 农夫三拳有點疼 阅读(950) 评论(0) 推荐(0) 编辑

序列到序列模型(seq2seq)

摘要: 1. 什么是seq2seq 在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如: 英语输⼊:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“.” 阅读全文

posted @ 2021-04-07 08:32 农夫三拳有點疼 阅读(1980) 评论(0) 推荐(0) 编辑

导航