03 2022 档案
摘要:一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD输入列表字符串numpy生成数组 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(fun
阅读全文
摘要:1.Spark生态系统的组成及各组件的功能。 1 . Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)图中在Spark Core上面的四个组件都依赖于Spark Core,可以简单认为Spark Core就是Spark生态系统中的离线计算框架,eg:Spark
阅读全文
摘要:一、安装Spark hadoop,jdk基础坏境的检查 spark的使用 二、Python编程练习:英文文本的词频统计 import string list=[] dict={} txt=open('text.txt','r').read().lower() #读取文件 for ch in stri
阅读全文