jieba(杰巴)分词的三种模式
jieba(结巴)是一个强大的分词库,完美支持中文分词,做为最好的Python中文分词组件。
安装:pip install jieba
特点
支持三种分词模式:
1.精确模式,试图将句子最精确地切开,适合文本分析;
import jieba
strings = '今天天气真好'
seg = jieba.cut(strings,cut_all=False)
print(','.join(seg))
output : 今天天气,真,好
cut_all参数默认为False,所有使用cut方法时默认为精确模式
2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
import jieba
strings = '今天天气真好'
seg = jieba.cut(strings,cut_all=True)
print(','.join(seg))
output : 今天,今天天气,天天,天气,真好
3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
import jieba
strings = '今天天气真好'
seg = jieba.cut_for_search(strings)
print(','.join(seg))
output : 今天,天天,天气,今天天气,真,好