会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
敖呜
博客园
首页
新随笔
联系
订阅
管理
随笔 - 7 文章 - 0 评论 - 0 阅读 -
291
2022年5月10日
7.Spark SQL
摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ,即"Hive on Spark",由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年,当时 Hive 几乎算是唯一的 SQL-on-Hadoop 选择方
阅读全文
posted @ 2022-05-10 18:02 敖呜
阅读(41)
评论(0)
推荐(0)
编辑
2022年4月19日
6. RDD综合练习:更丰富的操作
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通
阅读全文
posted @ 2022-04-19 17:28 敖呜
阅读(33)
评论(0)
推荐(0)
编辑
2022年4月5日
5.RDD操作综合实例
摘要: 准备文件 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话
阅读全文
posted @ 2022-04-05 19:11 敖呜
阅读(40)
评论(0)
推荐(0)
编辑
2022年3月20日
4.RDD操作
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义函数lambda函
阅读全文
posted @ 2022-03-20 20:58 敖呜
阅读(19)
评论(0)
推荐(0)
编辑
2022年3月11日
3.Spark设计与运行原理,基本操作
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 目前,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统。在Spark生态圈中包含了Spark
阅读全文
posted @ 2022-03-11 17:42 敖呜
阅读(82)
评论(0)
推荐(0)
编辑
2022年3月7日
安装Spark与Python练习
摘要: 一、安装Spark 检查jdk和spark运行测试 二、Python编程练习:英文文本的词频统计 源代码: import stringdict={}txt=open('test.txt','r',encoding="UTF-8").read().lower()for ch in string.pun
阅读全文
posted @ 2022-03-07 12:38 敖呜
阅读(16)
评论(0)
推荐(0)
编辑
2022年2月28日
大数据概述.
摘要: 一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1、HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件
阅读全文
posted @ 2022-02-28 00:23 敖呜
阅读(60)
评论(0)
推荐(0)
编辑
昵称:
敖呜
园龄:
3年
粉丝:
0
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔分类
作业博客(5)
随笔档案
2022年5月(1)
2022年4月(2)
2022年3月(3)
2022年2月(1)
阅读排行榜
1. 3.Spark设计与运行原理,基本操作(82)
2. 大数据概述.(60)
3. 7.Spark SQL(41)
4. 5.RDD操作综合实例(40)
5. 6. RDD综合练习:更丰富的操作(33)
点击右上角即可分享