Python 中的 jieba 库

jieba库
- 一、简介
  - 1、是什么
  - 2、安装
- 二、基本使用
  - 1、三种模式
  - 2、使用语法

jieba库

一、简介

1、是什么

（1）jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供三种分词模式，最简单只需掌握一个函数

（2）jieba分词的原理

jieba分词依靠中文词库
利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组

2、安装

 pip install jieba
导入
import jieba

官方文档【https://github.com/fxsjy/jieba】

二、基本使用

1、三种模式

精确模式：

就是把一段文本精确地切分成若干个中文单词，若干个中文单词之间经过组合，就精确地还原之前的文本。其中不存在冗余单词

 str = "你好呀，我叫李华！多多关照！"
print(jieba.lcut(str))

全模式：

将一段文本中所有可能的词语都扫描出来，可能有一段文本，它可以切分成不同的模式，或者有不同的角度来切分变成不同的词语，在全模式下，jieba库会将各种不同的组合都挖掘出来。分词后的信息组合起来会有冗余，不再是原来的文本

 str = "你好呀，我叫李华！多多关照！"
print(jieba.lcut(str, cut_all=True))

搜索引擎模式：

在精确模式的基础上，对发现的那些长的词语，我们会对它再次切分，进而适合搜索引擎对短词语的索引和搜索。也有冗余

 str = "你好呀，我叫李华！多多关照！"
print(jieba.lcut_for_search(str))

2、使用语法

2.1 对词组的基本操作

添加

 str = "你好呀，我叫李华！多多关照！"
jieba.add_word("你")
print(jieba.lcut(str))

删除

 str = "你好呀，我叫李华！多多关照！"
jieba.del_word("李华")
print(jieba.lcut(str))

加载自定义词典

 str = "你好呀，我叫李华！多多关照！"
jieba.load_userdict("./dict.txt")  # 文件编码必须为 utf-8
print(jieba.lcut(str))

调整词出现的频率

 str = "你好呀，我叫李华！多多关照！"
jieba.suggest_freq(("李", "华"), True)
print(jieba.lcut(str))

2.2 关键字提取

TFIDF算法

 import jieba.analyse  # 导包
 
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
                           allowPOS=())
jieba.analyse.TFIDF(idf_path=None)  # 创建一个新的 TFIDF 实例，idf_path是指指定 IDF 频率文件的路径

参数：

sentence：要提取的文本

topK：返回多少个具有最高TF/IDF权重的关键字。默认值为 20

withWeight：是否返回关键字的TF/IDF权重。默认为假

allowPOS：过滤包含POS（词性）的单词。空无过滤，可以选择['ns', 'n', 'vn', 'v','nr']

TextRank算法

 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))  # 有默认词性
jieba.analyse.TextRank()  # 新建自定义 TextRank 实例

2.3 词性标注

 jieba.posseg.POSTokenizer(tokenizer=None)

新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器

jieba.posseg.dt 为默认词性标注分词器

 import jieba.posseg
 
str = "你好呀，我叫李华！多多关照！"
pt = jieba.posseg.POSTokenizer()
print(pt.lcut(str))  # 得到 pair键值对，使用遍历取值
# print(jieba.posseg.cut(str))  # 作用一样
for i, k in ps.lcut(str):
    print(i, k)

2.4 返回词语在原文的起止位置

 jieba.tokenize(arg, mode=None)

mode有搜索模式（search）和默认模式（default）

 import jieba
 
str = "你好呀，我叫李华！多多关照！"
g = jieba.tokenize(str, mode="search")  # 生成器
for i in g:
    print(i)

posted @ 2022-03-25 19:36 Kenny_LZK 阅读(721) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Java 基础语法

· 接单日记（三）文本处理之词云生成

· Python中文分词库——jieba的用法

· python 基础教程：使用jieba库对文本进行分词

· jieba库

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： Kenny_LZK
园龄： 3年3个月
粉丝： 68
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

国学(5)

Kenny

Python 中的 jieba 库

jieba库

一、简介

1、是什么

2、安装

二、基本使用

1、三种模式

2、使用语法

2.1 对词组的基本操作

2.2 关键字提取

2.3 词性标注

2.4 返回词语在原文的起止位置

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

文章档案 (5)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

	str = "你好呀，我叫李华！多多关照！"
	print(jieba.lcut(str))

	str = "你好呀，我叫李华！多多关照！"
	print(jieba.lcut(str, cut_all=True))

	str = "你好呀，我叫李华！多多关照！"
	print(jieba.lcut_for_search(str))

	str = "你好呀，我叫李华！多多关照！"
	jieba.add_word("你")
	print(jieba.lcut(str))

	str = "你好呀，我叫李华！多多关照！"
	jieba.del_word("李华")
	print(jieba.lcut(str))

	str = "你好呀，我叫李华！多多关照！"
	jieba.load_userdict("./dict.txt") # 文件编码必须为 utf-8
	print(jieba.lcut(str))

	str = "你好呀，我叫李华！多多关照！"
	jieba.suggest_freq(("李", "华"), True)
	print(jieba.lcut(str))

	import jieba.analyse # 导包

	jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
	allowPOS=())
	jieba.analyse.TFIDF(idf_path=None) # 创建一个新的 TFIDF 实例，idf_path是指指定 IDF 频率文件的路径

	jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) # 有默认词性
	jieba.analyse.TextRank() # 新建自定义 TextRank 实例

	import jieba.posseg

	str = "你好呀，我叫李华！多多关照！"
	pt = jieba.posseg.POSTokenizer()
	print(pt.lcut(str)) # 得到 pair键值对，使用遍历取值
	# print(jieba.posseg.cut(str)) # 作用一样
	for i, k in ps.lcut(str):
	print(i, k)

	import jieba

	str = "你好呀，我叫李华！多多关照！"
	g = jieba.tokenize(str, mode="search") # 生成器
	for i in g:
	print(i)

Kenny

Python 中的 jieba 库

jieba库

一、 简介

1、 是什么

2、 安装

二、 基本使用

1、 三种模式

2、 使用语法

2.1 对词组的基本操作

2.2 关键字提取

2.3 词性标注

2.4 返回词语在原文的起止位置

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (297)

随笔档案 (185)

文章分类 (5)

文章档案 (5)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

一、简介

1、是什么

2、安装

二、基本使用

1、三种模式

2、使用语法