NLP概述

一、NLP概念

1.1 文本消歧:多模态、上下文信息

1.2 应用:问答系统

情感分析(产品评论、事件监测、舆情监控、股票价格预测)
15年之前 vs 15年之后:

机器翻译(很多好的模型都从机器翻译中来)

自动摘要

信息抽取(成熟)-->自动问答系统中的一个子模块

对话系统-->集大成者。
用简单的心理学trick去解决未知

推荐系统

1.3 技术栈:

二、NLP的过程:

2.1 分词

Tool:
Jieba分词 https://github.com/fxsjy/jieba
SnowNLP https://github.com/isnowfy/snownlp
清华LTP http://www.ltp-cloud.com/
HanNLP https://github.com/hankcs/HanLP

算法:
1.前向最大匹配、后向最大匹配(中文后向更优)
2.基于语言模型(计算句子概率的模型)去分词,判断一句话是不是人话
N-Gram(用马尔可夫假设)-->Smoothing

2.2 拼写纠正(英文为主)


2.3 停用词过滤

Zipfislaw规律

2.4 词的标准化

3.文本表示

3.1相似度计算

3.2词袋模型bag-of-word bow

One-hot、词集(根据多少加重要性)

3.3TF-IDF

并不是出现的越多就越重要!
并不是出现的越少就越不重要!

3.4分布式表示

03年的word2vec。。。。
Capacity+Meaning+dense+global 泛化能力

posted @ 2020-12-26 15:13  TOWERB  阅读(385)  评论(0编辑  收藏  举报