Python 统计英文词频（txt格式)

import re


def fre(TargetName, desName):
    '''打开 TargetName 文本，统计总单词数、独特的单词数、单词词频，并写入 desName 文件中'''

    dict = {}  # 存放单词
    number = 0  # 统计文本总单词数
    uniqueNum = 0  # 统计文本不重复的单词的个数
    # 打开文本
    with open(TargetName,'r',encoding='utf-8') as f:
        for line in f: # 逐行读取
            # 使用正则表达式替换除了 字母和空白符 以外的所有其他符号
            line = re.sub(r'[^\w\s-]+', ' ', line)
            word = line.split()  # 将句子分割成单词列表
            for w in word:
                number += 1      # 每遍历一个单词，总单词数就+1
                w = w.lower()  # 单词转换成全小写的形式
                if w not in dict:
                    dict[w] = 1
                    uniqueNum += 1
                else:
                    dict[w] = dict[w]+1
    #格式化打印
    print(f'{"Total words": <20} {number}')
    print(f'{"Unique words": <20} {uniqueNum}')

    # 将词频写入文件
    with open(desName, 'w', encoding='utf8') as f:
        # 先写入总词数、不重复单词数的信息
        f.write(f'{"Total words": <20} {number}\n')
        f.write(f'{"Unique words": <20} {uniqueNum}\n')
        f.write('-----------------------------\n')
        for i in sorted(dict.items(), key=lambda x: x[1], reverse=True):  # 将字典降序排序，并遍历
            f.write(f'{i[0]: <20} {i[1]}\n')
            print(f'{i[0]: <20} {i[1]}')

            
if __name__=="__main__":
    # 要分析的文件的路径
    name = r'C:\blood.txt'
    # 生成的词频的路径
    desName = 'C:\dict.txt'
    
    fre(name,desName)

posted @ 2020-01-02 21:51 wztshine 阅读(1571) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

2025年3月

日

一

二

三

四

五

六

wztshine

Python 统计英文词频（txt格式)

公告

搜索

常用链接

随笔分类

随笔档案

外链

阅读排行榜

评论排行榜

最新评论

wztshine

Python 统计英文词频 （txt格式)

公告

搜索

常用链接

随笔分类

随笔档案

外链

阅读排行榜

评论排行榜

最新评论

Python 统计英文词频（txt格式)