python 包之 jieba 分词模式教程

一、安装

  • jieba是一个优秀的中文分词库

  • 其分词依靠中文词库,利用词库确定汉子之间关联的概率

  • 通过汉字之间的概率,形成分词结果

pip install jieba

 

二、精确模式

  • 把词库精确区分开,不存在冗余词条

  • cut:返回一个可迭代的数据类型

  • lcut:返回一个列表类型,建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut(word)
jieba.lcut(word)

 

三、全模式

  • 将词库中的所有可能的词语都扫描出来,有冗余

  • cut:输出文本中所有可能的单词

  • lcut:返回一个列表类型,建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut(word, cut_all=True)
jieba.lcut(word, cut_all=True)

 

四、搜索引擎模式

  • 在精确模式基础上,对词进行再次切分

  • cut_for_search:适合搜索引擎建立索引的分词结果

  • lcut_for_search:返回一个列表类型,建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut_for_search(word)
jieba.lcut_for_search(word)

 

五、增加新词

  • 除了分词,用户可以自定义添加词组

  • 向分词词典中增加新词

  • 然后使用jieba分词时将带上加入的新词进行一起区分

import jieba

jieba.add_word('最好的语言')

 

posted @ 2022-03-29 11:03  sunnyeden  阅读(212)  评论(0编辑  收藏  举报