1-Python之jieba
about
install
pip install jieba
pip install -i https://pypi.doubanio.com/simple/ jieba
几种分词模式
import jieba
word = "他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作"
print("全模式: " + "/".join(jieba.cut(word, cut_all=True)))
print("精确模式: " + "/".join(jieba.cut(word, cut_all=False)))
print("搜索引擎模式: " + "/".join(jieba.cut_for_search(word)))
"""
全模式: 他/毕业/于/上海/上海交通大学/交通/大学/机电/系/,/后来/在/一机部/上海/电器/科学/科学研究/研究/研究所/工作
精确模式: 他/毕业/于/上海交通大学/机电/系/,/后来/在/一机部/上海/电器/科学/研究所/工作
搜索引擎模式: 他/毕业/于/上海/交通/大学/上海交通大学/机电/系/,/后来/在/一机部/上海/电器/科学/研究/研究所/工作
"""
cut和lcut的区别
cut
cut返回的是生成器。
import jieba
print(jieba.cut('上海自来水来自海上',cut_all=True)) # <generator object Tokenizer.cut at 0x01352D50>
print(list(jieba.cut('上海自来水来自海上',cut_all=True))) # ['上海', '自来', '自来水', '来自', '海上']
cut_all参数默认是False,精确模式(将语句划分开),True是全模式(将语句所有可能组合的词分出来)。
lcut
lcut返回的是列表。
import jieba
print(jieba.lcut('上海自来水来自海上')) # ['上海', '自来水', '来自', '海上']
欢迎斧正,that's all,see also: