随笔分类 - 自然语言处理(NLP)
摘要:一、任务 Named Entity Recognition,简称NER。主要用于提取时间、地点、人物、组织机构名。 二、应用 知识图谱、情感分析、机器翻译、对话问答系统都有应用。比如,需要利用命名实体识别技术自动识别用户的查询,然后将查询中的实体链接到知识图谱对应的结点上,其识别的准确率将会直接影响
阅读全文
摘要:隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。 HMM首先出现,MEMM其次,
阅读全文
摘要:Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架,每天要为Facebook旗下各种应用处理超过10亿次NLP任务,Facebook AI的工业级NLP开源框架。(简化部署流程,大规模应用也OK) PyText基于PyTorch,能够加速从研究到应用的进度,从模型的研究
阅读全文
摘要:BERT的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning),适用于广泛任务的最先进模型的构建,比如问答任务和
阅读全文
摘要:一、P-R曲线 P-R曲线刻画查准率和查全率之间的关系,查准率指的是在所有预测为正例的数据中,真正例所占的比例,查全率是指预测为真正例的数据占所有正例数据的比例。 即:查准率P=TP/(TP + FP) 查全率=TP/(TP+FN) 查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏
阅读全文
摘要:一、背景 自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型。传统的基于RNN的Seq2Seq模型难以处理长序列的句子,无法实现并行,并且面临对齐的问题。 所以之后这类模型的
阅读全文
摘要:工具包:https://taku910.github.io/crfpp/#tips 语料:http://sighan.cs.uchicago.edu/bakeoff2005/ 安装: 1)下载linux版本CRF++包 CRF++-0.58.tar.gz,并解压。 2)cd CRF++-0.58 3
阅读全文
摘要:1、从独立性假设到联合概率链朴素贝叶斯中使用的独立性假设为 P(x1,x2,x3,...,xn)=P(x1)P(x2)P(x3)...P(xn) 去掉独立性假设,有下面这个恒等式,即联合概率链规则 P(x1,x2,x3,...,xn)=P(x1)P(x2|x1)P(x3|x1,x2)...P(xn|
阅读全文
摘要:一、五个基本元素 HMM是个五元组 λ =( S, O , π ,A,B) S:状态值集合,O:观察值集合,π:初始化概率,A:状态转移概率矩阵,B:给定状态下,观察值概率矩阵 二、两个假设 HMM 的定义建立在两个基本假设的前提上,这两个假设是 HMM 的重点,一定要了解模型的 2 个假设。 1)
阅读全文
摘要:CRF++模板构建分为两类,一类是Unigram标注,一类是Bigram标注。 Unigram和Bigram模板分别生成CRF的状态特征函数 和转移特征函数 。其中 是标签, 是观测序列, 是当前节点位置。Bigram 下面只需要加一个B就ok了,其它还是用Unigram模板生成特征。 主要介绍Un
阅读全文
摘要:概率有向图又称为贝叶斯网络,概率无向图又称为马尔科夫网络。具体地,他们的核心差异表现在如何求 ,即怎么表示 这个的联合概率。 概率图模型的优点: 提供了一个简单的方式将概率模型的结构可视化。 通过观察图形,可以更深刻的认识模型的性质,包括条件独立性。 高级模型的推断和学习过程中的复杂计算可以利用图计
阅读全文
摘要:N-gram语言模型 考虑一个语音识别系统,假设用户说了这么一句话:“I have a gun”,因为发音的相似,该语音识别系统发现如下几句话都是可能的候选:1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了,到底哪一个是正确答案呢? 一般
阅读全文
摘要:一、相关概念 标签:对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。 对于“人”这类群体,可将“男”、“女”这类特征进行抽象概括,统称为“性别”,“性别”即一个标签; 对于“手机”这类对象,可将“骁龙835”、“骁龙845”这类特征进行抽象概括,统称为“手机处理器”
阅读全文