思维导图
一、概述
该库用于中文分词,可应用于搜索引擎、机器翻译等领域
二、安装与导入
# 安装 pip install jieba # 导入 import jieba
三、分词模式
1.精确模式
将文本分为多个词,不存在冗余
参数HMM(隐马尔科夫模型)默认为True,自动识别新词。若设为False,则无法将一些字识别为词。
2.全模式
分词结果包含所有可能的组合,但不能解决词语歧义
3.搜索引擎模式
在精确模式的基础上,对长词进行切分
注意:cut返回迭代器对象,lcut返回列表
四、自定义词典
1.添加新词
2.删除新词
3.读取词典
词典包含多行,每行包含词语、词频(可省略)、词性(可省略),空格分隔
4.修改词典路径
当某字典无法满足需求时,可重新设置字典
5.调整词频
即调整结果被切分为词的可能性。两种情况:长拆短、短组长
第一个参数segment为想要的分词结果,第二个参数tune为是否调整词语的词频
6.停用词过滤
将要过滤的词存于列表,然后用for循环过滤
五、关键词提取/权重分析
使用analyse模块,主要有两种算法,tf-idf与textrank
1.TF-IDF
参数sentence为文本内容,参数topK为返回的权重关键词的个数,withWeight为是否返回权重,参数allPos为筛选词性,默认为空
2.TextRank
参数基本同上,但是allPos默认为('ns', 'n', 'vn', 'v')
六、词性标注
使用posseg模块
参数为sentence与HMM
词性参考下表
七、返回词语在原文中的起止位置
使用Tokenize模块,实际调用时使用tokenize()方法
参数unicode_sentence为分词内容,mode为分词模式,HMM默认True
参考链接:
1.手把手教会你使用Python进行jieba分词 (qq.com)
2.jieba,为中文分词而生的Python库 (qq.com)
3.fxsjy/jieba: 结巴中文分词 (github.com)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix