NLP工具汇总
NLP工具汇总
NLTK
- 主要用来处理英文
- 命名实体识别
- 词性还原(英文)
Stanford NLP
- 主要用来处理英文
- 命名实体识别
Trankit
- 依存句法分析
word2vec
- 一种的词向量表的表示方式
- Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具
BERT
- 中英文皆可,主要用来计算词向量,作为一个Word2Vec的替代者,根据上下文改变向量表示,解决了多义词的表示问题
- 查找相似词语
- 提取文本中的实体(需要给定一个模板)
- 问答中的实体对齐
ALBERT
- 在海量中文语料上进行了预训练,模型的参数更少,效果更好。
pyltp
- pyltp 是 LTP 的 Python 封装,主要用于中文
- 分句
- 分词
- 词性标注
- 命名实体识别
- 语义角色标注(浅层语义分析的一种方式,与谓语的关系)
- 依存句法分析(语法)
Gensim
- TF-IDF(词的重要性,词语消歧)
- LSA
- LDA
- word2vec
jieba
- 分词(分词更专业,可添加不切分的词)
LTP(同pyltp )
- 词性标注
- 句法分析
pkuseg
- 分词(北大中文)
- 可以自由地选择不同的模型
- 新闻领域
- 网络领域
- 医药领域
- 旅游领域
- 混合领域
- 可以自由地选择不同的模型
记录学习的点点滴滴