jieba库统计出现词语次数
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"
支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
目录
1、安装依赖#
pip install jieba
2、代码示例 #
"""
-*- coding:utf-8 -*-
Time: 2021-05-09
"""
# 导入依赖
import jieba
def fun():
# 读取文本
txt = open("data.txt", "r", encoding='utf-8').read()
# 使用精确模式对文本进行分词
words = jieba.lcut(txt)
# 通过键值对的形式存储词语及其出现的次数
counts = {}
for word in words:
# 去掉词语中的空格
word = word.replace(' ', '')
# 如果词语长度为1,则忽略统计
if len(word) == 1:
continue
# 进行累计
else:
counts[word] = counts.get(word, 0) + 1
# 将字典转为列表
items = list(counts.items())
# 根据词语出现的次数进行从大到小排序
items.sort(key=lambda x: x[1], reverse=True)
# 输出统计结果
for item in items:
word, count = item
print("词语:【{}】,出现次数:{}".format(word, count))
# 主函数
if __name__ == '__main__':
fun()
作者:YangRoc
出处:https://www.cnblogs.com/YangRoc/p/17186553.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
如果本篇文章有帮助到你,你可以请作者喝杯咖啡表示鼓励 ☕️
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· winform 绘制太阳,地球,月球 运作规律
· 上周热点回顾(3.3-3.9)