NLP 概览
关于NLP
NLP:Natural Language Processing 自然语言处理。
目的:计算机能‘懂得’人类对它‘说’的话,然后去执行一些指定的任务。
NLP任务分类
-
序列标注问题
- 命名实体
- 品牌词识别
- 拼写检查
- 中文分词(词性标注)
- 句法分析
- 新词发现
- 同义词查找&替换
- 关键词提取&搜索
-
分类问题
- 情感分析
- 行业分类
- 意图识别
- 垃圾邮件分类
-
改写问题
- query扩展
- 改写
- 纠错
- 翻译
-
生成问题
- 自动写稿
- 自动写诗
- 文本摘要
- 聊天机器人
- 自动问答
NLP的难点:
- 情境多样
- 语言歧义
相关技术&工具包
- NLTK
- spaCy 后起之秀
- GATE
- Mallet
- Open NLP
- UIMA
- Stanford CoreNLP
- Genism
- CRF++,序列标注经典工具
- Stanford CoreNLP
- textblob
- syntaxnet
- seq2seq
其他知识基础
-
算法和数据结构
-
机器学习理论
-
hadoop 或 spark
-
Fasttext:facebook短文本分类
-
gensim
-
glovec
-
word2vec
-
泰勒公式
-
输入法怎么组织词表?
-
lda原理
-
kmeans的mapreduce实现
-
lr模型参数估计
-
boosting的过程
-
cnn文本分类的过程
-
字典树分词函数
-
hadoop大小表
-
lstm编辑距离
-
最长公共子串
-
手推最大熵
-
xgboost,lightgbm,libsvm,liblinear,weka
相关书籍
-
《NLTK基础教程(用NLTK和Python库构建机器学习应用) 》作者: [印度]哈登尼亚 (Nitin Hardeniya) 译者: 凌杰
https://book.douban.com/subject/27057666/ -
《自然语言处理入门》 作者: 何晗
https://book.douban.com/subject/34856701/ -
《统计自然语言处理》作者: 宗成庆
https://book.douban.com/subject/25746399/ -
《NLP汉语自然语言处理原理与实践》作者: 郑捷
https://book.douban.com/subject/26977414/
相关资料
-
“Dive Into NLTK
https://textminingonline.com/dive-into-nltk-part-i-getting-started-with-nltk -
斯坦福大学深度学习与自然语言处理第一讲引言
http://www.52nlp.cn/