jieba库统计出现词语次数

jieba "结巴"中文分词：做最好的Python中文分词组件 "Jieba"

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

1、安装依赖

2、代码示例

1、安装依赖

pip install jieba

2、代码示例

"""
-*- coding:utf-8 -*-
Time: 2021-05-09 
"""
# 导入依赖
import jieba

def fun():
    # 读取文本
    txt = open("data.txt", "r", encoding='utf-8').read()
    # 使用精确模式对文本进行分词
    words = jieba.lcut(txt)
    # 通过键值对的形式存储词语及其出现的次数
    counts = {}
    for word in words:
        # 去掉词语中的空格
        word = word.replace('  ', '')
        # 如果词语长度为1，则忽略统计
        if len(word) == 1:
            continue
        # 进行累计
        else:
            counts[word] = counts.get(word, 0) + 1
    # 将字典转为列表
    items = list(counts.items())
    # 根据词语出现的次数进行从大到小排序
    items.sort(key=lambda x: x[1], reverse=True)
    # 输出统计结果
    for item in items:
        word, count = item
        print("词语:【{}】,出现次数:{}".format(word, count))


# 主函数
if __name__ == '__main__':
    fun()

posted @ 2021-05-09 17:14 Roc-xb 阅读(54) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

不知名程序员

不要害怕难度，因为难度是你成长和提高的机会。

jieba库统计出现词语次数

1、安装依赖

2、代码示例