jieba（结巴）—— Python 中文分词 - 未雨愁眸

公告

学术界著名的分词器：

另外，中文 NLP 和英文 NLP 不太一致的地方还在于，中文首先需要分词，针对中文的分词问题，有两种基本的解决思路：

jieba 分词是python写成的一个算是工业界的分词开源库，其 github 地址为：https://github.com/fxsjy/jieba

jieba 分词虽然效果上不如 ICTCLAS 和 ltp，但是胜在 python 编写，代码清晰，扩展性好，对 jieba 有改进的想法可以很容易的自己写代码进行魔改。

0. install

有两种方式：

进入 cmd：pip install jiebe
在 https://pypi.python.org/pypi/jieba/，下载 jieba-0.38.zip
- 解压后，执行 python setup.py install

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

posted on 2016-10-27 12:43 未雨愁眸阅读(339) 评论(0) 编辑收藏举报

刷新页面返回顶部