摘要:1.概述 A Neural Attention Model for Sentence Summarization是一个用于处理文本总结的模型,是基于seq2seq提出的,论文地址https://www.aclweb.org/anthology/D15-1044.pdf 2.模型 3.模型公式 目标:
阅读全文
摘要:1.表现 梯度爆炸主要表现在损失大幅度跳动,梯度消失主要表现是损失基本不变或在一个很小的范围内不断变化。 2.解决办法 梯度消失可以替换激活函数为relu,缩减隐层 梯度爆炸可以做梯度裁剪 fluid.clip.set_gradient_clip( clip=fluid.clip.GradientC
阅读全文
摘要:1.概述 机器翻译的输入一般是源语言的句子。但在很多实际系统中,比如语音识别系统的输出或者基于拼音的文字输入,源语言句子一般包含很多同音字错误, 这会导致翻译出现很多意想不到的错误。由于可以同时获得发音信息,我们提出了一种在输入端加入发音信息,进而在模型的嵌入层 融合文字信息和发音信息的翻译方法,大
阅读全文
摘要:1.概述 DAM用于处理一个连续型的问答问题,问题的答案存在于一个序列中,模型的目标是从待选择的答案中选出最合适的答案并给予评分。 2.模型结构 3.模型 输入是若干个问题,和一个答案的集合,经过embeding形成字向量,词向量,和句子向量,然后经过多层的self-attention机制形成字,词
阅读全文
摘要:1.概述 Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数 标注问题一般用crf来作为损
阅读全文
摘要:1.根据输入数据构建loader src = fluid.data(name="src", shape=[None, None], dtype="int64") src_sequence_length = fluid.data(name="src_sequence_length",shape=[No
阅读全文
摘要:1.概述 erine是一种自然语言处理的预训练模型,对自然语言推理,命名实体识别,文本分类有很好的效果。 2.模型结构 3.模型结构 1).Transformer Encoder 该模型使用多层Transformer作为基本编码器,与其他预训练类似GPT、BERT等模型。Transformer可以捕
阅读全文
摘要:1.概述 利用语言模型来获得一个上下文相关的预训练表示,称为ELMo。它使用的是一个双向的LSTM语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然。 2.模型结构 3.双向语言模型 前向概率计算: 后向概率计算: t代表token,即词 最后将前向和后向合并 最
阅读全文
摘要:1.概述 XLNet 与 Bert 有着许多的不同,XLNet 利用一个全新的模型Transformer-XL作为语义表示的骨架, 将置换语言模型的建模作为优化目标,同时在预训练阶段也利用了更多的数据。 最终,XLNet 在多个 NLP 任务上达到了 SOTA 的效果。 2.Two-Stream S
阅读全文
摘要:1.概述 transformer是一种应用很广泛的语义模型,最近很多NLP场景已经应用了transformer,有的是使用transformer的整个seq2seq架构,也有很多任务只使用其encoder部分,包括最近很火的GPT/BERT。 2.整体框架 3.encoder-decoder框架 1
阅读全文
摘要:1.概述 bert是文本生成向量的一种方式,相较于以前的模型,bert将双向 Transformer 用于语言模型。 2.用途 在分类任务中,例如情感分析等,只需要在 Transformer 的输出之上加一个分类层 在问答任务(例如SQUAD v1.1)中,问答系统需要接收有关文本序列的 quest
阅读全文
摘要:1.概述 人机交互包括两个模型,第一个模型Retrieval-based Model,基于检索的模型,generation-based基于生成的模型 2.数据源介绍 训练集包括四部分,第一部分是上下文source,聊天记录target,背景知识knowledge,聊天目标goal(start->to
阅读全文
摘要:1.概述 机器翻译(machine translation, MT)是用计算机来实现不同语言之间翻译的技术。被翻译的语言通常称为源语言(source language),翻译成的结果语言称为目标语言(target language)。机器翻译即实现从源语言到目标语言转换的过程,是自然语言处理的重要研
阅读全文
摘要:1.bow_net模型 def bow_net(data, seq_len, label, dict_dim, emb_dim=128, hid_dim=128, hid_dim2=96, class_dim=2, is_prediction=False): """ Bow net """ # em
阅读全文
摘要:1.概述 BiDAF采用多阶段的、层次化处理,使得可以捕获原文不同粒度的特征。同时使用双向的attention流机制以在without early summarization的情况下获得相关问句和原文之间的表征。 2.模型结构 输入是问题和文章上下文的词和字符 1).步骤1,词嵌入和字符嵌入 q_i
阅读全文
摘要:1.pom文件 注意flink的版本, alink_core_flink-1.9_2.111.9表示flink的版本2.11表示scala的版本另外引用的flink依赖的版本必须与安装的flink是同一个版本,否则会报错 <dependencies> <dependency> <groupId>co
阅读全文
摘要:1.解决办法一 每层随机dropout一部分神经元 paddle.fluid.layers.dropout(x, dropout_prob, is_test=False, seed=None, name=None, dropout_implementation='downgrade_in_infer
阅读全文