2.安装spark与python练习
二:Python编程练习:英文文本的词频统计
1.准备文本文件
2.读文件 预处理:大小写,标点符号,停用词,分词,统计每个单词出现的次数 ,按词频大小排序
def get_text(file_name): with open(file_name,'r',encoding='utf-8') as fr: text = fr.read() text = text.lower()#注意会有大小写之分,这里不区分大小写 delete_ch = ['\n',':','!','?',',','.']#要删除的标点 for ch in delete_ch: text = text.replace(ch,' ') return text file_name = 'test.txt'#要处理的文件 text = get_text(file_name) text = text.split()#注意!不能有split(' ') count_dict = {} #统计每个单词的个数 for i in text: count_dict[i] = count_dict.get(i,0) + 1 #转化成列表的形式 count_dict = list(count_dict.items()) count_dict.sort(key = lambda x:x[1], reverse = True) for i in range(10): word,count = count_dict[i] print(word,count)
展示结果
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!