随笔分类 - 自然语言处理
摘要:文本分类应用 1.1 讽刺检测 Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. ACL 2019 论文来源:ACL 2019 论文链接:https://www.aclweb.org/anthology/
阅读全文
摘要:对Skip-Gram模型优化扩展 论文解读:Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. Distributed Representations of Words and Phrases and their
阅读全文
摘要:Paper:Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection 论文:Generating Hierarchical Explanations on Text Cl
阅读全文
摘要:ELMO BERT GPT ELMO ELMo首先想到了在预训练阶段为每个词汇集齐上下文信息,使用的是基于bi-LSTM的语言模型给词向量带上上下文语义信息: 但ELMo使用的是RNN来完成语言模型的预训练,那么如何使用Transformer来完成预训练呢? GPT GPT(Generative P
阅读全文
摘要:基于LSTM语言模型的文本生成 1. 文本生成 1.1 基于语言模型的文本生成 基于马尔科夫的语言模型且在数据驱动下的自然语言生成。利用数据和文字间的对齐语料,使用N-gram语言模型生成文本。在语言模型上加入句法分析(关系抽取、实体识别、依存句法、短语结构等)还可以显著改善生成效果。因为这些都建立
阅读全文
摘要:RNN 梯度消失&梯度爆炸 参考:https://zhuanlan.zhihu.com/p/33006526?from_voters_page=true 梯度消失和梯度爆炸本质是同一种情况。梯度消失经常出现的原因:一是使用深层网络;二是采用不合适的损失函数,如Sigmoid。梯度爆炸一般出现的场景:
阅读全文
摘要:Named Entity Recognition 1. NER 1.1 NER定义 命名实体识别(NER): 也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。 1.2 数据格式 NE
阅读全文
摘要:文本生成任务的评价方法 参考资料:https://baijiahao.baidu.com/s?id=1655137746278637231&wfr=spider&for=pc 1.BLEU BLEU (Bilingual Evaluation Understudy)——越大越好 核心:比较候选译文和
阅读全文
摘要:多模态文本分类技术 1. 多模态表示学习(Representation) 1.1 联合表示(Joint Representation) 定义:将多个模态的信息一起映射到一个统一的多模态向量空间 论文:Multimodal learning with deep boltzmann machines,
阅读全文
摘要:Beam Search 及5种优化方法 1. Review Beam Search 参考:吴恩达 深度学习 笔记 Course 5 Week 3 Sequence Models 回顾beam search: 对greedy search进行了改进:扩大搜索空间,更容易得到全局最优解。beam sea
阅读全文
摘要:Pointer Network发展与应用 1. Pointer Network(Ptr-Nets) 论文:Pointer Networks 传统的 Seq2Seq 模型中 Decoder 输出的目标数量是固定的,例如翻译时 Decoder 预测的目标数量等于字典的大小。这导致 Seq2Seq 不能用
阅读全文
摘要:基于seq2seq文本生成的解码/采样策略 基于Seq2Seq模型的文本生成有各种不同的decoding strategy。文本生成中的decoding strategy主要可以分为两大类: Argmax Decoding: 主要包括beam search, class-factored softm
阅读全文
摘要:NLP数据增强 1. UDA (Unsupervised Data Augmentation)【推荐】 一个半监督的学习方法,减少对标注数据的需求,增加对未标注数据的利用。 UDA使用的语言增强技术——Back-translation:回译能够在保存语义不变的情况下,生成多样的句式。 UDA关键解决
阅读全文
摘要:Teacher forcing是什么? RNN 存在两种训练模式(mode): free-running mode: 上一个state的输出作为下一个state的输入。 teacher-forcing mode: 使用来自先验时间步长的输出作为输入。 teacher forcing要解决什么问题?
阅读全文
摘要:NLP三大特征抽取器(CNN/RNN/TF)比较 参考知乎张俊林:https://zhuanlan.zhihu.com/p/54743941 1. NLP任务 1.1 NLP任务特点 输入是一个线性序列 输入是不定长的 单词或句子的相对位置关系很重要,两个词位置互换可能导致完全不同的意思 句子中的长
阅读全文
摘要:相似度计算方法 1. 文本距离 1.1 编辑距离(Edit Distance) 编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。**如果两个字符串的编辑距离越大,说明它们越是不同。**许可的编辑操作包括将一
阅读全文
摘要:数据不平衡处理 常见处理方法 1. 欠采样(下采样、Under-sampling、US) 减少分类中多数类样本的样本数量实现样本均衡。 随机删除 随机删除一些多量样本。 PG算法(Prototype Generation) 在原有样本的基础上生成新的样本来实现样本均衡。 2. 过采样(上采样、ove
阅读全文
摘要:gensim中常用的Word2Vec,Phrases,Phraser,KeyedVectors gensim API 1. Phrases 和Phraser gensim.models.phrases.Phrases 和gensim.models.phrases.Phraser的用处是从句子中自动检
阅读全文
摘要:WMD Paper: From Word Embeddings To Document Distances 2015年,提出词移距离WMD(Word Mover's Distance):词移距离是在词向量的基础上发展而来的用来衡量文档相似性的度量, 是一种计算句子之间距离的方法,距离越小,相似度越高
阅读全文
摘要:各种优化器SGD,AdaGrad,Adam,LBFGS都做了什么? 优化的目标是希望找到一组模型参数,使模型在所有训练数据上的平均损失最小。对于参数的迭代更新$\theta \leftarrow \theta -\eta g$,主要是从两个方面,一个是梯度修正$g$,一个是学习率$\eta$调整。基
阅读全文