中英分词工具

1.下面排名根据 GitHub 上的 star 数排名

  1. Hanlp
  2. Stanford 分词
  3. ansj 分词器
  4. 哈工大 LTP
  5. KCWS分词器
  6. jieba
  7. IK
  8. 清华大学THULAC
  9. ICTCLAS

英文:

  1. Keras
  2. Spacy
  3. Gensim
  4. NLTK

https://easyai.tech/ai-definition/tokenization/

2.CoreNLP

https://links.jianshu.com/go?to=http%3A%2F%2Fstanfordnlp.github.io%2FCoreNLP%2F

功能:

  • 分词(tokenize)、分句(split)
  • 词性标注(pos)
  • 词形还原(lemma)
  • 命名实体识别(ner)
  • 语法解析(parse)
  • 情感分析(sentiment)

但是这个是基于Java的。

3.文本预处理

英文预处理包括:词,去停词,提取词干等步骤。

nltk有提供stopwords。

https://easyai.tech/ai-definition/tokenization/

词的原因:

  1. 将复杂问题转化为数学问题
  2. 词是一个比较合适的粒度
  3. 深度学习时代,部分任务中也可以「分字」

中英文分词的3个典型区别:

  1. 分词方式不同,中文更难
  2. 英文单词有多种形态,需要词性还原和词干提取
  3. 中文分词需要考虑粒度问题

中文分词的3大难点

  1. 没有统一的标准
  2. 歧义词如何切分
  3. 新词的识别

 

posted @ 2020-09-18 18:39  lypbendlf  阅读(778)  评论(0编辑  收藏  举报