随笔档案「2019年9月」 - 微笑sun

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

摘要：本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL，Transformer-XL不属于预训练模型范畴，而是Transformer的扩展版，旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文

posted @ 2019-09-29 16:18 微笑sun 阅读(4733) 评论(3) 推荐(0)

神经网络中的权值初始化方法

摘要：1，概述神经网络中的权值初始化方法有很多，但是这些方法的设计也是遵循一些逻辑的，并且也有自己的适用场景。首先我们假定输入的每个特征是服从均值为0，方差为1的分布（一般输入到神经网络的数据都是要做归一化的，就是为了达到这个条件）。为了使网络中的信息更好的传递，每一层的特征的方差应该尽可能相等，如果阅读全文

posted @ 2019-09-24 15:17 微笑sun 阅读(4884) 评论(0) 推荐(0)

NLP中的预训练语言模型（二）—— Facebook的SpanBERT和RoBERTa

摘要：本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。一，SpanBERT 论文：SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub：https://github.c 阅读全文

posted @ 2019-09-16 17:52 微笑sun 阅读(4830) 评论(0) 推荐(0)

NLP中的预训练语言模型（一）—— ERNIE们和BERT-wwm

摘要：随着bert在NLP各种任务上取得骄人的战绩，预训练模型在这不到一年的时间内得到了很大的发展，本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型，这一期先介绍几个国内开源的预训练模型。一，ERNIE（清华大学&华为诺亚）论文：ERNIE: Enhanced Language R 阅读全文

posted @ 2019-09-12 18:38 微笑sun 阅读(11590) 评论(0) 推荐(1)

微笑sun

09 2019 档案

公告