【NLP-00-1】NLP简述

一、自然语言处理的基本流程

分词
命名实体识别，主要有人名，地名，机构名等
词性标注，对分词后的词语进行语义标注
句法分析，主要是要构建语法树，标注单词，短语，句子的语法
语义分析，包括两部分：语义消歧，主要是针对多义词在文中的意思；语义角色标注，主要是要标出一个句子中主谓宾状语等。语义角色标注过于依赖句法分析的准确性，不过目前自动句法分析的准确性并不是特别高，因此语义角色标注的效果也一般。
篇章分析，在一篇文章中段落的顺序、句子的顺序都是很重要的，按照正确的表达序列排序才能构成完整的篇章。在篇章分析中可以划分的结构有篇章-段落-句子-词、篇章-句子-词、篇章-词等。

上面的六步只不过是自然语言处理中的中间步骤，并不是自然语言处理的最终目标

------------------------------以下详细介绍-------------------------------------

序列标注问题包括自然语言处理中的分词，词性标注(POS tagging)、命名实体识别，关键词抽取，词义角色标注等等，具体可参考： https://blog.csdn.net/qq_40136685/article/details/90634006

文本分类和情感计算

QA，Entailment/自然语言推理信息检索人机对话系统

机器翻译，语音翻译、文本摘要与信息抽取

TFIDF & BM25，用于进行文档表示的扛鼎之作，所有信息检索和搜索引擎的基础。

NGram，统计语言模型的标准算法，增加了多尺度的探索。

HMM，序列标注、语言模型曾经的主流算法。

Topic Models，包括LSA、pLSA、LDA等隐含主题模型，可以说是2000-2010间火了十多年的范式。

IBM Model，1990年代统计机器翻译时代的扛鼎之作，利用大规模对齐文本学习词对齐模型，算法也很巧妙，即使现在仍值得拜读。

CRF，条件随机场是解决序列标注的主流模型，在中文分词、词性标注、实体识别等任务直到现在仍然是标准模型。

word2vec，包括Skipgram和CBOW，2013年引爆NLP深度学习浪潮的里程碑算法，引领2013-2016年的词表示学习研究热潮。我还特别喜欢基于word2vec，哈工大师生做的那篇ACL 2014用于上下位关系抽取的扩展工作，非常NLP的研究方法，值得推荐。

RNN & LSTM，神经网络语言模型的代表作，将语言马尔科夫性与神经网络有机融合，影响巨大。

Attention，神经网络用于自然语言处理不可或缺的重要机制，解决长程依赖的灵丹妙药。基于此延展Transformer和其应用：GPT、BERT，和Transformer

BERT，简单粗暴有效，2018年引起自然语言处理预训练语言模型浪潮。

--来自知乎的回答，觉得有一定道理，故粘贴过来了。后续也基于这些进行学习。

posted @ 2020-05-24 22:39 忆凡人生阅读(804) 评论(1) 编辑收藏举报

刷新页面返回顶部