posts - 28,comments - 0,views - 13546

 

思维导图

 

 

 

 

一、概述

该库用于中文分词,可应用于搜索引擎、机器翻译等领域

 

二、安装与导入

# 安装
pip install jieba

# 导入
import jieba

 

三、分词模式

1.精确模式

将文本分为多个词,不存在冗余

 

 

 参数HMM(隐马尔科夫模型)默认为True,自动识别新词。若设为False,则无法将一些字识别为词。

2.全模式

分词结果包含所有可能的组合,但不能解决词语歧义

 

 

 3.搜索引擎模式

在精确模式的基础上,对长词进行切分

 

 

 注意:cut返回迭代器对象,lcut返回列表

 

四、自定义词典

1.添加新词

2.删除新词

3.读取词典

词典包含多行,每行包含词语、词频(可省略)、词性(可省略),空格分隔

 

 

 4.修改词典路径

当某字典无法满足需求时,可重新设置字典

 5.调整词频

即调整结果被切分为词的可能性。两种情况:长拆短、短组长

 

 

 第一个参数segment为想要的分词结果,第二个参数tune为是否调整词语的词频

6.停用词过滤

将要过滤的词存于列表,然后用for循环过滤

 

 

 

五、关键词提取/权重分析

使用analyse模块,主要有两种算法,tf-idf与textrank

1.TF-IDF

 

 

 参数sentence为文本内容,参数topK为返回的权重关键词的个数,withWeight为是否返回权重,参数allPos为筛选词性,默认为空

2.TextRank

 

 

 参数基本同上,但是allPos默认为('ns', 'n', 'vn', 'v')

 

六、词性标注

使用posseg模块

 

 

 参数为sentence与HMM

词性参考下表

 

 

 

七、返回词语在原文中的起止位置

使用Tokenize模块,实际调用时使用tokenize()方法

 

 

 参数unicode_sentence为分词内容,mode为分词模式,HMM默认True

 

 

参考链接:

1.手把手教会你使用Python进行jieba分词 (qq.com)

2.jieba,为中文分词而生的Python库 (qq.com)

3.fxsjy/jieba: 结巴中文分词 (github.com)

 

posted on   宝joM  阅读(331)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示