摘要:
目录 研究背景 离散表示 分布式表示 神经网络 NNLM (Neural Network Language model),神经网络语言模型是03年提出来的,通过训练得到中间产物–词向量矩阵,这就是我们要得到的文本表示向量矩阵。 1、研究背景 维数灾难(curse of dimensionality) 阅读全文
摘要:
目录 什么是词嵌入(Word Embedding) 离散表示 分布式表示 神经网络 一、什么是词嵌入(Word Embedding) 词是自然语言表义的基本单元。我们之所以认识词语,是因为我们大脑中建立了很多映射连接。那计算机怎么去识别呢?这也是词嵌入引出的原因:把词映射为实数域向量的技术也叫词嵌入 阅读全文
摘要:
目录 序列标注问题之中文分词 序列标注之命名实体识别(NER) CRF和LSTM在序列标注上的优劣 补充标签表示 序列标注问题是自然语言中最常见的问题,在深度学习火起来之前,常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型。尤其是CRF,是解决序列标注问题的主流方法。随着深度 阅读全文
摘要:
目录 NLP基本流程 NLP应用场景 NLP技术流 一、自然语言处理的基本流程 分词 命名实体识别,主要有人名,地名,机构名等 词性标注,对分词后的词语进行语义标注 句法分析,主要是要构建语法树,标注单词,短语,句子的语法 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注, 阅读全文