Loading

jieba库统计出现词语次数

   jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" 

  • 支持三种分词模式:

    • 精确模式,试图将句子最精确地切开,适合文本分析;

    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持繁体分词

  • 支持自定义词典

目录

1、安装依赖

2、代码示例 


1、安装依赖

pip install jieba

2、代码示例 

"""
-*- coding:utf-8 -*-
Time: 2021-05-09 
"""
# 导入依赖
import jieba

def fun():
    # 读取文本
    txt = open("data.txt", "r", encoding='utf-8').read()
    # 使用精确模式对文本进行分词
    words = jieba.lcut(txt)
    # 通过键值对的形式存储词语及其出现的次数
    counts = {}
    for word in words:
        # 去掉词语中的空格
        word = word.replace('  ', '')
        # 如果词语长度为1,则忽略统计
        if len(word) == 1:
            continue
        # 进行累计
        else:
            counts[word] = counts.get(word, 0) + 1
    # 将字典转为列表
    items = list(counts.items())
    # 根据词语出现的次数进行从大到小排序
    items.sort(key=lambda x: x[1], reverse=True)
    # 输出统计结果
    for item in items:
        word, count = item
        print("词语:【{}】,出现次数:{}".format(word, count))


# 主函数
if __name__ == '__main__':
    fun()

posted @ 2021-05-09 17:14  Roc-xb  阅读(54)  评论(0编辑  收藏  举报

易微帮源码


易微帮官网