03 2022 档案

摘要:一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD exit()退出上一步后启动hdfs上传文件且查看文件 进入spark加载刚刚传入hdfs的文件 不使用HDFS了,记得停止hdfs 3.通过并行集合(列表)创建RDD 输入列表字符串numpy生成数组 二、 阅读全文
posted @ 2022-03-24 19:39 偷猪少年会遇到 阅读(42) 评论(0) 推荐(0) 编辑
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能 (1)Spark Core:Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(R 阅读全文
posted @ 2022-03-10 14:12 偷猪少年会遇到 阅读(107) 评论(0) 推荐(0) 编辑
摘要:1.基础环境--环境准备检查 2.运行pyspark 3.python代码测试 4.python实现英文文本的词频统计 ①通过终端命令创建文件,一个放英文内容以是python代码文件 python代码如下:说明((1)英文中同时存在大小写,会干扰词频统计的结果,所以应将所有的英文字母转化为大写或小写 阅读全文
posted @ 2022-03-02 23:43 偷猪少年会遇到 阅读(53) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示