NLP - 随笔分类 - nxf_rabbit75

BERT源码分析（三）---Masked LM、Next Sentence Prediction

摘要：参考文献：【1】BERT源码分析PART III - 知乎阅读全文

posted @ 2019-12-25 14:49 nxf_rabbit75 阅读(1531) 评论(1) 推荐(1) 编辑

摘要：参考文献：【1】BERT源码分析PART II - 知乎阅读全文

posted @ 2019-12-25 14:47 nxf_rabbit75 阅读(284) 评论(0) 推荐(0) 编辑

摘要：整个代码文件如下： BertModel类实现了BERT模型，代码位于modeling.py模块中。 1.配置类（BertConfig）这段代码定义了BERT模型的一些默认参数和4个文件处理函数。参数： vocab_size：词表大小 hidden_size：隐藏层神经元数 num_hidden_ 阅读全文

posted @ 2019-12-19 19:58 nxf_rabbit75 阅读(2763) 评论(0) 推荐(2) 编辑

Transformer模型---decoder

摘要：一、结构 1.编码器 Transformer模型 encoder - nxf_rabbit75 - 博客园 2.解码器（1）第一个子层也是一个多头自注意力multi-head self-attention层，但是，在计算位置i的self-attention时屏蔽掉了位置i之后的序列值，这意味着：位阅读全文

posted @ 2019-11-27 20:25 nxf_rabbit75 阅读(2555) 评论(0) 推荐(0) 编辑

Transformer模型---encoder

摘要：一、简介论文：《Attention is all you need》作者：Google团队（2017年发表在NIPS上）简介：Transformer 是一种新的、基于 attention 机制来实现的特征提取器，可用于代替 CNN 和 RNN 来提取序列的特征。在该论文中 Transform 阅读全文

posted @ 2019-11-27 20:11 nxf_rabbit75 阅读(3725) 评论(0) 推荐(1) 编辑

Autoregressive LM---GPT模型

摘要：一、GPT（Generative Pre-Training） GPT-2的模型非常巨大，它其实是Transformer的Decoder。GPT-2是Transformer的Decoder部分，输入一个句子中的上一个词，我们希望模型可以得到句子中的下一个词。由于GPT-2的模型非常巨大，它在很多任务阅读全文

posted @ 2019-11-17 20:31 nxf_rabbit75 阅读(512) 评论(0) 推荐(0) 编辑

词向量---Word2Vec

摘要：word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negati 阅读全文

posted @ 2019-11-17 11:50 nxf_rabbit75 阅读(469) 评论(0) 推荐(0) 编辑

Autoregressive LM---ELMO

摘要：1.ELMo（Embeddings from Language Models ） RNN-based language models（trained from lots of sentences） ELMo 词向量是由双向神经网络语言模型的内部多层向量的线性加权组成。 LSTM 高层状态向量捕获了上阅读全文

posted @ 2019-10-08 15:14 nxf_rabbit75 阅读(537) 评论(0) 推荐(0) 编辑

BERT模型

摘要：一、BERT介绍论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 简介：BERT是基于Transformer的深度双向语言表征模型，基本结构如图所示，本质上是利用Transform 阅读全文

posted @ 2019-10-07 01:04 nxf_rabbit75 阅读(2203) 评论(0) 推荐(2) 编辑

注意力机制总结

摘要：一、传统编码-解码机制设输入序列

{x^{1}, x^{2}, . . ., x^{n}}

$\{x^1,x^2,...,x^n\}$ ，输出序列

{y^{1}, y^{2}, . . ., y^{m}}

$\{y^1,y^2,...,y^m\}$ ，encoder的隐向量为

h_{1}, h_{2}, . . .

$h_1,h_2,...$ ，decoder的隐向量为

s_{1}, s_{2}, . . .

$s_1,s_2,...$ 。解码器的输入只有一个向量，该向量就是输入序列经过编码器的上下文向阅读全文

posted @ 2019-09-20 11:00 nxf_rabbit75 阅读(8230) 评论(0) 推荐(8) 编辑

PageRank

摘要：计算网页的支持度，主要由两部分组成：own pagerank 和 number of outbound links 网页的pagerank取决于指向该网页的pagerank和数量阅读全文

posted @ 2019-06-03 16:33 nxf_rabbit75 阅读(250) 评论(0) 推荐(0) 编辑

词向量---LSA(Latent Semantic Analysis)

摘要：举例：矩阵分解之后，取前两维，k=2，单词距离：文档距离：通过LSA分析之后计算文档间的余弦相似度，属于同一个类型文本之间的相似度很接近；在原始文档间计算相似度，效果不如LSA 当出现新的query，先将query降到二维空间，再和已有文档的二维矩阵计算相似度，可以看出query与C类文档相阅读全文

posted @ 2019-06-03 16:12 nxf_rabbit75 阅读(910) 评论(0) 推荐(0) 编辑

NLP文本分类方法汇总

摘要：模型： FastText TextCNN TextRNN RCNN 分层注意网络（Hierarchical Attention Network）具有注意的seq2seq模型（seq2seq with attention） Transformer("Attend Is All You Need") 阅读全文

posted @ 2019-05-24 11:47 nxf_rabbit75 阅读(1613) 评论(0) 推荐(0) 编辑

计算文本相似度方法总结（二）

摘要：总览 1.基于语料库（1）词袋模型 VSM LSA PLSA LDA （2）神经网络（3）搜索引擎 2.基于字符串（1）基于字符（2）基于词语 3.基于世界知识（1）基于本体（2）基于网络知识 4.其他方法（1）句法分析（2）混合方式参考文献：【1】 "文本相似度计算方法研究综述阅读全文

posted @ 2019-05-15 14:49 nxf_rabbit75 阅读(1300) 评论(0) 推荐(0) 编辑

计算文本相似度方法总结（一）

摘要：方法1：无监督，不使用额外的标注数据 average word vectors：简单的对句子中的所有词向量取平均，是一种简单有效的方法，缺点：没有考虑到单词的顺序，只对15个字以内的短句子比较有效，丢掉了词与词间的相关意思，无法更精细的表达句子与句子之间的关系。 tfidf weightin 阅读全文

posted @ 2019-05-13 15:43 nxf_rabbit75 阅读(15509) 评论(0) 推荐(2) 编辑

命名实体识别总结

摘要：一、什么是命名实体识别命名实体识别（NER）是指在文本中识别出特殊对象，这些对象的语义类别通常在识别前被预定义好，预定义类别如人、地址、组织等。命名实体识别不仅仅是独立的信息抽取任务，它在许多大型nlp应用系统如信息检索、自动文本摘要、问答系统、机器翻译以及知识建库（知识图谱）中也扮演了关键的角色阅读全文

posted @ 2019-04-18 09:50 nxf_rabbit75 阅读(11559) 评论(0) 推荐(7) 编辑

TextCNN

摘要：论文出处：Convolutional Neural Networks for Sentence Classification 一、什么是TextCNN？将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕阅读全文

posted @ 2019-03-31 22:58 nxf_rabbit75 阅读(591) 评论(0) 推荐(0) 编辑

jieba分词

摘要：一. 三种模式精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。二. 算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能阅读全文

posted @ 2019-03-26 11:01 nxf_rabbit75 阅读(459) 评论(0) 推荐(0) 编辑

seq2seq和attention应用到文档自动摘要

摘要：一、摘要种类抽取式摘要抽取式摘要直接从原文中抽取一些句子组成摘要。本质上就是个排序问题，给每个句子打分，将高分句子摘出来，再做一些去冗余（方法是MMR）等。这种方式应用最广泛，因为比较简单。经典方法有LexRank和整数线性规划（ILP）。 LexRank是将文档中的每个句子都看作节点，句子之阅读全文

posted @ 2019-03-16 21:17 nxf_rabbit75 阅读(1813) 评论(0) 推荐(0) 编辑

【序列模型】第三课--序列模型和注意力机制

摘要：1.基础模型basic model 以翻译为例，将如下一句法文翻译成英文，输入是法文的每个单词，输出是英文的每个单词，分别用

x^{}, y^{}

$x^{},y^{}$ 表示：如何构建一个模型，使得输入法文序列的词，输出英文序列的词呢？接下去要介绍的知识与思想主要来自于这两篇论文：（1）首先建立一个网络，称之为 enc 阅读全文

posted @ 2018-11-09 19:05 nxf_rabbit75 阅读(622) 评论(0) 推荐(0) 编辑

随笔分类 - NLP

搜索

最新随笔

随笔分类 (511)

阅读排行榜

推荐排行榜