模块jieba库的使用
模块jieba库的使用
一 jieba库基本介绍
1.1 jieba库的概念
jieba库是优秀的中文分词第三方库
-
中文文本需要通过分词获得单个的词语
-
jieba是优秀的中文分词第三方库,需要额外安装
-
jieba库提供三种分词模式,最简单只需掌握一个函数
1.2 jieba库的安装
pip install jieba (cmd命令行)
1.3 jieba分词的原理
jieba分词依靠中文词库
-
利用一个中文词库,确定汉字之间的关系概念
-
汉字间概率大的组成词组,形成分词结果
-
除了分词,用户还可以添加自定义的词组
jieba库使用说明
2.1 jieba分词的三种模式
-
精确模式:把文本精确的切分开,不存在冗余单词
-
全模式:把文本中所有可能的词语都扫描出来,有冗余
-
搜索引擎模式:在精确模式基础上,对长词再次切分
2.2 jieba库常用函数
2.3 分词要点
下面是代码演示
import jieba
txt = '中国,是以华夏文明为源泉、中华文化为基础,并以汉族为主体民族的多民族国家,通用汉语、汉字,汉族与少数民族被统称为“中华民族”,又自称为炎黄子孙、龙的传人。'
# 精确模式
# res = jieba.cut(txt) # 获取可迭代对象
res = jieba.lcut(txt) # 生成的是一个列表
# 全模式
# res1 = jieba.cut(txt, cut_all=True) # 获取可迭代对象
res1 = jieba.lcut(txt, cut_all=True) # 生成的是一个列表
# 搜索引擎模式
# res2 = jieba.cut_for_search(txt) # 获取可迭代对象
res2 = jieba.lcut_for_search(txt) # # 生成的是一个列表
# for i in res2:
print(res2)