随笔分类 -  NLP

自然语言处理
摘要:Discourse 之前介绍的NLP任务大多是研究词汇句式,其实还有很多NLP任务是为了解决文档document级别的问题,为了更好地理解句子之间是怎么组合成文档的。 三个主要任务 1. Discourse segmentation 我们知道一篇文档的内容往往是有几个部分通过一些衔接部分组合起来的, 阅读全文
posted @ 2020-06-21 21:06 MrDoghead 阅读(1408) 评论(0) 推荐(0)
摘要:Recurrent Neural Network (RNN) 循环网络区别于之前提到的前馈网络在于,它能够将每一层的输出带到后面的神经层,使用state向量来保存和传递处理过的信息,用递归函数表示如下。 \(s_i = f(s_{i-1},x_i),这里的s_i表示新的状态,s_{i-1}表示前一个 阅读全文
posted @ 2020-06-20 21:42 MrDoghead 阅读(312) 评论(0) 推荐(0)
摘要:深度学习 深度学习是机器学习的分支,也就是神经网络,为什么称之为”深度“?因为有很多连接在一起的神经层! 前馈网络 Feedforward Networks 也叫Multilayer Perceptrons(多层感知机),大致的结构如下图所示 其中,每一个节点都可以看做是一个函数,将上一层传过来的输 阅读全文
posted @ 2020-06-20 17:03 MrDoghead 阅读(6915) 评论(0) 推荐(0)
摘要:HMM 本文接着上一篇的POS tagging来讲hidden markov model,以及如何使用HMM来做NLP任务的训练。 概率模型 假设我们的目标是给定一句话w(也就是一个序列),希望获得一组最优的tagging序列t, \(\hat{t} = argmax_tP(t|w) = argma 阅读全文
posted @ 2020-06-20 02:22 MrDoghead 阅读(210) 评论(0) 推荐(0)
摘要:part-of-speech (POS) POS其实就是对词进行一些分类,比如名词、动词、形容词、副词等。通过研究POS我们可以学习到更多词于词之间的关系,比如冠词一般在名词前,名词后面可能是动词,更进一步的,POS可以被应用到其他任务中,比如推测作者、信息抽取等等。由于很多语言在不同环境下存在多种 阅读全文
posted @ 2020-06-19 22:52 MrDoghead 阅读(725) 评论(0) 推荐(0)
摘要:什么是文本分类 文本分类任务是NLP十分常见的任务大类,他的输入一般是文本信息,输出则是预测得到的分类标签。主要的文本分类任务有主题分类、情感分析 、作品归属、真伪检测等,很多问题其实通过转化后也能用分类的方法去做。 常规步骤 选择一个感兴趣的任务 收集合适的数据集 做好标注 特征选择 选择一个机器 阅读全文
posted @ 2020-06-19 19:58 MrDoghead 阅读(1911) 评论(0) 推荐(0)
摘要:语言模型 NLP是用来理解和解释语言的,语言模型可以帮助我们解决一些类型的问题,例如检查拼写、生成对话、内容识别、机器翻译等等,N-gram就是一种非常经典的语言模型。 Markov Assumption 一个简单假设:\(P(w_i|w_1...w_{i-1}) \approx P(w_i|w_{ 阅读全文
posted @ 2020-06-19 01:53 MrDoghead 阅读(312) 评论(0) 推荐(0)
摘要:为什么要预处理? 我们知道,大部分NLP任务都是以文本形式输入的,然鹅language is compositional!我们理解文本通常能够把文本拆分成多个构成的部分去理解,那么机器也可以这么做,而预处理就是第一步操作! 常规步骤 1. 去除不需要的格式信息 如HTML 2. 把文本拆分成句子 可 阅读全文
posted @ 2020-06-18 23:15 MrDoghead 阅读(746) 评论(0) 推荐(0)
摘要:前言 今天分享一个nlp任务的实例:给定一句话,要求判别是否为谣言。这里只使用NLTK等工具(简单实用),不涉及deep learning的相关内容,所以是初学者友好型实例。本文包括了数据预处理、模型搭建以及预测评估三个方面,使用的算法主要为Naive Bayes和Logistic Regressi 阅读全文
posted @ 2020-04-15 21:01 MrDoghead 阅读(495) 评论(0) 推荐(0)
摘要:前言 今天补充一个知识点,正则表达(regular expression)。首先,什么是正则表达呢?正则表达可以理解为是一种pattern,用来匹配字符串。正则表达在许多场景下都有应用,比如爬虫、文本查到等,使用起来也非常灵活,入门很简单,但是要用得好却很难。在许多文本编辑器中都可以使用正则表达,而 阅读全文
posted @ 2019-12-17 01:20 MrDoghead 阅读(425) 评论(0) 推荐(0)
摘要:前言 食用本文前,需要有对BERT模型基础知识的掌握,因为ERNIE就是在BERT的基础上做的提升与改进。如果你对BERT毫无了解,可以参考我之前的博文 "《大名鼎鼎的BERT模型》" 。废话不多说,让我们开始吧! 介绍 BERT模型提出后,可谓是横扫了许多NLP数据榜单,大家也开始纷纷学习这个新型 阅读全文
posted @ 2019-12-15 21:30 MrDoghead 阅读(1368) 评论(0) 推荐(0)
摘要:前言 前几天写了一篇关于BERT的博文,里面用到了Transformer的编码器,但是没有具体讲它的原理,所以在这篇文章里做一个补充。本文只阐述编码器encoder的部分,只做一个重点部分流程的概括,具体的最好还是看看原论文,然后关于解码器的部分之后有机会再讲。 encoder原理 我们主要根据下面 阅读全文
posted @ 2019-12-15 02:21 MrDoghead 阅读(4908) 评论(0) 推荐(0)
摘要:根据论文,思路梳理 阅读全文
posted @ 2019-12-13 00:13 MrDoghead 阅读(1143) 评论(0) 推荐(0)