jieba库 - 宝joM - 博客园

思维导图

一、概述

该库用于中文分词，可应用于搜索引擎、机器翻译等领域

二、安装与导入

# 安装
pip install jieba

# 导入
import jieba

三、分词模式

1.精确模式

将文本分为多个词，不存在冗余

参数HMM（隐马尔科夫模型）默认为True，自动识别新词。若设为False，则无法将一些字识别为词。

2.全模式

分词结果包含所有可能的组合，但不能解决词语歧义

3.搜索引擎模式

在精确模式的基础上，对长词进行切分

注意：cut返回迭代器对象，lcut返回列表

四、自定义词典

1.添加新词

2.删除新词

3.读取词典

词典包含多行，每行包含词语、词频（可省略）、词性（可省略），空格分隔

4.修改词典路径

当某字典无法满足需求时，可重新设置字典

5.调整词频

即调整结果被切分为词的可能性。两种情况：长拆短、短组长

第一个参数segment为想要的分词结果，第二个参数tune为是否调整词语的词频

6.停用词过滤

将要过滤的词存于列表，然后用for循环过滤

五、关键词提取/权重分析

使用analyse模块，主要有两种算法，tf-idf与textrank

1.TF-IDF

参数sentence为文本内容，参数topK为返回的权重关键词的个数，withWeight为是否返回权重，参数allPos为筛选词性，默认为空

2.TextRank

参数基本同上，但是allPos默认为('ns', 'n', 'vn', 'v')

六、词性标注

使用posseg模块

参数为sentence与HMM

词性参考下表

七、返回词语在原文中的起止位置

使用Tokenize模块，实际调用时使用tokenize()方法

参数unicode_sentence为分词内容，mode为分词模式，HMM默认True

参考链接：

1.手把手教会你使用Python进行jieba分词 (qq.com)

2.jieba，为中文分词而生的Python库 (qq.com)

3.fxsjy/jieba: 结巴中文分词 (github.com)

posted on 2022-07-20 12:45 宝joM 阅读(331) 评论(0) 编辑收藏举报

随笔分类

随笔档案

搜索

常用链接

随笔分类

随笔档案

阅读排行榜