随笔分类 - NLP
摘要:1. 前言 近一年来,NLP领域发展势头强劲,从ELMO到LSTM再到去年最牛叉的Google Bert,在今年年初,Facebook又推出了 "XLM" 模型,在跨语言预训练领域表现抢眼。实验结果显示 "XLM" 在XNLI任务上比原来的state of the art直接高了4.9个百分点;在无
阅读全文
摘要:1. 前言 XLNet "原文链接" 是CMU与谷歌大脑提出的全新NLP模型,在20个任务上超过了BERT的表现,并在18个任务上取得了当前最佳效果,包括机器问答、自然语言推断、情感分析和文档排序。 这篇新论文中,作者从自回归(autoregressive)和自编码(autoencoding)两大范
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:1. 前言 本文介绍一种无监督的机器翻译的模型。无监督机器翻译最早是 "《UNSUPERVISED NEURAL MACHINE TRANSLATION》" 提出。这个模型主要的特点,无需使用平行语料库,使用去噪和回译的步骤构建NMT系统。 2018年Facebook人工智能实验室再次公布了有关无监
阅读全文
摘要:1. 前言 实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类: 一类是串联抽取方法。传统的串联抽取就是首先进行实体抽取,然后进行关系识别。这种分开的方法比较容易实现,而且各个模块灵活度比较高。但是这种方法中,实体识别的结果会影响到关系识别的结果,所以容易产生误差累积。 另一
阅读全文
摘要:"1. pyhanlp介绍和简单应用" "2. 观点提取和聚类代码详解" 1. 前言 本文介绍如何在无监督的情况下,对文本进行简单的观点提取和聚类。 2. 观点提取 观点提取是通过依存关系的方式,根据固定的依存结构,从原文本中提取重要的结构,代表整句的主要意思。 我认为比较重要的依存关系结构是"动补
阅读全文
摘要:"1. pyhanlp介绍和简单应用" "2. 观点提取和聚类代码详解" 1. 前言 中文分词≠自然语言处理! 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和I
阅读全文
摘要:1. 前言 2018年最火的论文要属google的BERT,不过今天我们不介绍BERT的模型,而是要介绍BERT中的一个小模块WordPiece。 2. WordPiece原理 现在基本性能好一些的NLP模型,例如OpenAI GPT,google的BERT,在数据预处理的时候都会有WordPiec
阅读全文
摘要:1. 前言 近年来,NLP领域发展迅速,而机器翻译是其中比较成功的一个应用,自从2016年谷歌宣布新一代谷歌翻译系统上线,神经机器翻译(NMT,neural machine translation)就取代了统计机器翻译(SMT,statistical machine translation),在翻译
阅读全文
摘要:"1. 通俗易懂解释知识图谱(Knowledge Graph)" "2. 知识图谱 命名实体识别(NER)详解" "3. 哈工大LTP解析" 1. 前言 哈工大语言技术平台Language Technology Platform(LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言
阅读全文
摘要:"1. 通俗易懂解释知识图谱(Knowledge Graph)" "2. 知识图谱 命名实体识别(NER)详解" "3. 哈工大LTP解析" 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识图谱的每个步骤。今天介绍知识图谱里面的NER的环节。 命名实体识别(Named Enti
阅读全文
摘要:"1. 通俗易懂解释知识图谱(Knowledge Graph)" "2. 知识图谱 命名实体识别(NER)详解" "3. 哈工大LTP解析" 1. 前言 从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在
阅读全文
摘要:1. 前言 在NLP中有几个经典的序列标注问题,词性标注(POS),chunking和命名实体识别(NER)。序列标注器的输出可用于另外的应用程序。例如,可以利用在用户搜索查询上训练的命名实体识别器来识别关键词,从而触发某些产品广告。另一个例子是搜索引擎可以使用这种标签信息来查找相关的网页。 2.
阅读全文
摘要:1. 前言 今天介绍一篇2017年的论文《 "Distant Supervision for Relation Extraction with Sentence level Attention and Entity Deions" 》,这篇论文主要是介绍通过句子层面的注意力和实体知识来提高远程监督抽
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:"1. 语言模型" "2. Attention Is All You Need(Transformer)算法原理解析" "3. ELMo算法原理解析" "4. OpenAI GPT算法原理解析" "5. BERT算法原理解析" "6. 从Encoder Decoder(Seq2Seq)理解Atten
阅读全文
摘要:"1. 文本相似度计算 文本向量化" "2. 文本相似度计算 距离的度量" "3. 文本相似度计算 DSSM算法" "4. 文本相似度计算 CNN DSSM算法" 1. 前言 之前介绍了DSSM算法,它主要是用了DNN的结构来对数据进行降维度,本文用CNN的结构对数据进行降维。 2. CNN DSS
阅读全文