09 2019 档案

摘要:本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读(4733) 评论(3) 推荐(0)
摘要:1,概述 神经网络中的权值初始化方法有很多,但是这些方法的设计也是遵循一些逻辑的,并且也有自己的适用场景。首先我们假定输入的每个特征是服从均值为0,方差为1的分布(一般输入到神经网络的数据都是要做归一化的,就是为了达到这个条件)。 为了使网络中的信息更好的传递,每一层的特征的方差应该尽可能相等,如果 阅读全文
posted @ 2019-09-24 15:17 微笑sun 阅读(4884) 评论(0) 推荐(0)
摘要:本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub:https://github.c 阅读全文
posted @ 2019-09-16 17:52 微笑sun 阅读(4830) 评论(0) 推荐(0)
摘要:随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。 一,ERNIE(清华大学&华为诺亚) 论文:ERNIE: Enhanced Language R 阅读全文
posted @ 2019-09-12 18:38 微笑sun 阅读(11590) 评论(0) 推荐(1)