03 2022 档案

第四次作业

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs 上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD输入列表字符串numpy生成数组二、 RDD操作转换操作 filter(func)显式定义函数lambda函数 map(fun 阅读全文

posted @ 2022-03-22 00:34 啊bin 阅读(26) 评论(0) 推荐(0) 编辑

第三次作业

摘要：1.Spark生态系统的组成及各组件的功能。 1 . Spark Core：Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集）图中在Spark Core上面的四个组件都依赖于Spark Core，可以简单认为Spark Core就是Spark生态系统中的离线计算框架，eg：Spark 阅读全文

posted @ 2022-03-12 20:46 啊bin 阅读(36) 评论(0) 推荐(0) 编辑

第二次作业

摘要：一、安装Spark hadoop，jdk基础坏境的检查 spark的使用二、Python编程练习：英文文本的词频统计 import string list=[] dict={} txt=open('text.txt','r').read().lower() #读取文件 for ch in stri 阅读全文

posted @ 2022-03-05 15:22 啊bin 阅读(31) 评论(0) 推荐(0) 编辑

公告

昵称：啊bin
园龄： 3年
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

啊bin

03 2022 档案

公告

搜索

常用链接

随笔档案

阅读排行榜