python系列（亲测有效）：数据分析之jieba分词使用详解

数据分析之jieba分词使用详解

1 四种模式分词
2 自定义词典分词
3 词性标注
4 关键词提取
- 4.1 基于 TF-IDF 算法的关键词抽取
- 4.2 基于 TextRank 算法的关键词抽取

在所有人类语言中，一句话、一段文本、一篇文章都是有一个个的词组成的。词是包含独立意义的最小文本单元，将长文本拆分成单个独立的词汇的过程叫做分词。分词之后，文本原本的语义将被拆分到在更加精细化的各个独立词汇中，词汇的结构比长文本简单，对于计算机而言，更容易理解和分析，所以，分词往往是自然语言处理的第一步。

对于英文文本，句子中的词汇可以通过空格很容易得进行划分，但是在我们中文中则不然，没有明显的划分标志，所以需要通过专门的方法（算法）进行分词。在Python中，有多种库实现了各种方法支持中文分词，例如：jieba、hanlp、pkuseg等。在本篇中，先来说说jieba分词。

1 四种模式分词

（1）精确模式：

试图将句子最精确地切开，适合文本分析。精确分词模式对应的方法是jieba.cut，该方法接受四个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式，值为False时表示采用精确分词模式；HMM 参数用来控制是否使用 HMM 模型。

（2）全模式：

posted @ 2024-01-16 17:37 坦笑&&life 阅读(66) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python系列（亲测有效）：python 年月日时分秒（百度AI参考）

· python系列：关于nlp-pyltp的基本介绍和使用

· python 基础教程：使用jieba库对文本进行分词

· python 包之 jieba 分词模式教程

· jieba库

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

公告

昵称：坦笑&&life
园龄： 3年3个月
粉丝： 32
关注： 5

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:网安工具系列：灯塔资产管理系统魔改版搭建(ARL-Puls)
1
--weizhi1
2. Re:WIN10 WIN11 12代 13代大小核；性能核；电源选项；P-core,E-core；
命令1
--改善低素质
3. Re:WIN10 WIN11 12代 13代大小核；性能核；电源选项；P-core,E-core；
命令
--愁滋味
4. Re:Python系列（亲测有效）：解决 Invalid HTTP_HOST header、Python3引入ssl报错（需要重新编译，出现unrecognized options: --with-ssl）
什么原因呢，怎么解决
--sttyy0
5. Re:Centos7 安装 MySQL5.7 步骤
神！！！
--羊城晚抱