python 包之 jieba 分词模式教程
一、安装
-
jieba是一个优秀的中文分词库
-
其分词依靠中文词库,利用词库确定汉子之间关联的概率
-
通过汉字之间的概率,形成分词结果
pip install jieba
二、精确模式
-
把词库精确区分开,不存在冗余词条
-
cut:返回一个可迭代的数据类型
-
lcut:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut(word)
jieba.lcut(word)
三、全模式
-
将词库中的所有可能的词语都扫描出来,有冗余
-
cut:输出文本中所有可能的单词
-
lcut:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut(word, cut_all=True)
jieba.lcut(word, cut_all=True)
四、搜索引擎模式
-
在精确模式基础上,对词进行再次切分
-
cut_for_search:适合搜索引擎建立索引的分词结果
-
lcut_for_search:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut_for_search(word)
jieba.lcut_for_search(word)
五、增加新词
-
除了分词,用户可以自定义添加词组
-
向分词词典中增加新词
-
然后使用jieba分词时将带上加入的新词进行一起区分
import jieba
jieba.add_word('最好的语言')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix