about

install

pip install jieba
pip install -i https://pypi.doubanio.com/simple/ jieba

几种分词模式

import jieba

word = "他毕业于上海交通大学机电系，后来在一机部上海电器科学研究所工作"
print("全模式: " + "/".join(jieba.cut(word, cut_all=True)))   
print("精确模式: " + "/".join(jieba.cut(word, cut_all=False)))   
print("搜索引擎模式: " + "/".join(jieba.cut_for_search(word)))   

"""
全模式: 他/毕业/于/上海/上海交通大学/交通/大学/机电/系/，/后来/在/一机部/上海/电器/科学/科学研究/研究/研究所/工作
精确模式: 他/毕业/于/上海交通大学/机电/系/，/后来/在/一机部/上海/电器/科学/研究所/工作
搜索引擎模式: 他/毕业/于/上海/交通/大学/上海交通大学/机电/系/，/后来/在/一机部/上海/电器/科学/研究/研究所/工作
"""

cut和lcut的区别

cut

cut返回的是生成器。

import jieba
print(jieba.cut('上海自来水来自海上',cut_all=True))  # <generator object Tokenizer.cut at 0x01352D50>
print(list(jieba.cut('上海自来水来自海上',cut_all=True)))  # ['上海', '自来', '自来水', '来自', '海上']

cut_all参数默认是False，精确模式（将语句划分开），True是全模式（将语句所有可能组合的词分出来）。

lcut

lcut返回的是列表。

import jieba
print(jieba.lcut('上海自来水来自海上'))   # ['上海', '自来水', '来自', '海上']

欢迎斧正，that's all,see also：

jieba之cut & lcut | 简明 jieba 中文分词教程

posted @ 2019-06-14 12:29 听雨危楼阅读(1349) 评论(0) 收藏举报

刷新页面返回顶部

王战山的学习笔记

非淡泊无以明志，非宁静无以致远

1-Python之jieba

about

几种分词模式

cut和lcut的区别

公告