4.RDD操作
摘要:一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义函数lambda函
阅读全文
posted @
2022-03-20 20:58
敖呜
阅读(19)
推荐(0) 编辑
3.Spark设计与运行原理,基本操作
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。在Spark生态圈中包含了Spark
阅读全文
posted @
2022-03-11 17:42
敖呜
阅读(82)
推荐(0) 编辑
安装Spark与Python练习
摘要:一、安装Spark 检查jdk和spark运行测试 二、Python编程练习:英文文本的词频统计 源代码: import stringdict={}txt=open('test.txt','r',encoding="UTF-8").read().lower()for ch in string.pun
阅读全文
posted @
2022-03-07 12:38
敖呜
阅读(16)
推荐(0) 编辑