1.jieba.lcut(sentence):返回的是一个列表
1 seg_list = jieba.lcut("我来到北北京清华大学") 2 print(type(seg_list)) 3 print(seg_list)
2.jieba.cut(sentence, cut_all=False):返回的是一个迭代器,cut_all默认为False(精确模式),True(全模式)
1 seg_list = jieba.cut("我来到北北京清华大学", cut_all=True) # 结巴分词用于中文分词 2 print("Full Mode:", "/ ".join(seg_list)) #全模式:将语句所有可以组合的词分出来 3 seg_list = jieba.cut("我来到北北京清华大学", cut_all=False) 4 print("Default Mode:", "/ ".join(seg_list)) # 精确模式:将语句划分开 5 seg_list = jieba.cut("他来到了了网网易易杭研大大厦") 6 print(", ".join(seg_list))
3.jieba.cut_for_search(sentence):返回一个迭代器
jieba.lcut_for_search(sentence):返回一个集合
搜索引擎模式:在精确模式的基础上,对长词在此划分,
1 seg_list = jieba.cut_for_search("我来到北北京清华大学") 2 print(type(seg_list)) 3 print(", ".join(seg_list)) 4 seg_list = jieba.lcut_for_search("我来到北北京清华大学") 5 print(type(seg_list)) 6 print(seg_list)
分词无论是全模式还是搜索引擎模式都是不会改变语句顺序的,即使语句中一些不相邻的字可以组成一个词,结巴分词并不会把他们划分为一个词。