安装Spark与Python代码练习
1.基础环境--环境准备检查
2.运行pyspark
3.python代码测试
4.python实现英文文本的词频统计
①通过终端命令创建文件,一个放英文内容以是python代码文件
python代码如下:说明((1)英文中同时存在大小写,会干扰词频统计的结果,所以应将所有的英文字母转化为大写或小写;(2)英文单词可能被空格、标点或其他特殊符号分隔,因此应将这些特殊符号统一替换为空格;(3)根据空格对文本进行分隔;(4)用词典统计单词的出现次数;(5)由于词典不具有排序功能,可以将词典转化列表,再对统计结果进行排序。)
import string #文本词频统计 f=open("es.txt","r") txt=f.read() #将所有字母转化为小写,排除大小写差异对词频统计的干扰 txt.lower() #为统一单词的切分方式,将各种特殊字符和标点符号都替换为空格 for ch in string.punctuation: txt=txt.replace(ch," ") #根据空格对文本进行切分 words=txt.split() #创建一个空词典,用于存放统计结果 result={} for word in words: result[word]=result.get(word,0)+1 #为便于排序,将词典转化为列表 items=list(result.items()) #根据单词的频数从高到低排序 items.sort(key=lambda x:x[1],reverse=True) #输出全部 print(items) #输出排序结果中位于前10位的单词 for i in range(10): print(items[i])
5.运行es.py
命令:python3 es.py
①显示所有单词词频排序从大到小
②显示排序的前十名
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· AI与.NET技术实操系列(六):基于图像分类模型对图像进行分类