摘要: RDD依赖关系 在RDD中将依赖划分成两种类型:窄依赖( ) 和 宽依赖( ) 窄依赖 每个父RDD的分区都至多被一个子RDD的分区使用 父RDD与子RDD的关系为 (一个父RDD对应一个子RDD) 或者 (多个父RDD对应一个子RDD) 比如 、 、 宽依赖 多个子RDD的分区依赖一个父RDD的分 阅读全文
posted @ 2018-08-11 01:18 oldsix666 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 一、RDD分区的含义 RDD 内部的数据集合在逻辑上和物理上被划分成多个子集合分布到集群的节点中,这样的每一个子集合我们将其称为分区( ) 分区个数的多少涉及对该RDD进行并行计算的粒度 spark会为每个分区起一个单独的任务进行计算,因此并行任务的个数,也是由分区的个数决定的 分区是一个逻辑概念, 阅读全文
posted @ 2018-08-11 01:16 oldsix666 阅读(377) 评论(0) 推荐(0) 编辑
摘要: spark中的RDD操作类型可以分为四类:创建操作( )、转换操作( )、控制操作( )、行为操作( ) 创建操作( ) 主要用于创建 。创建 的两种方法,一种是 或者 一个已存在的集合,另一种是在外部存储系统(比如 、`HBASE`)中引用一个数据集 转换操作( ) 将 通过一定的操作变换成新的 阅读全文
posted @ 2018-08-11 01:16 oldsix666 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 一、数据集分析 数据文件按照气象站和日期进行组织,每个气象站都是一个总目录,而且每个气象站下面从 1980 年到 2010 年,每一年又都作为一个子目录。 因为某国有成千上万个气象站,所以整个数据集由大量的小文件组成。通常情况下,处理少量的大型文件更容易、更有效,因此,这些数据需要经过预处理,将每个 阅读全文
posted @ 2018-08-11 01:13 oldsix666 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 项目需求 一本英文书籍包含成千上万个单词,现在我们需要在大量的单词中,找出相同字母组成的所有单词 数据集 "数据集下载点击这里" 实现分析 观察数据集的数据,可以知道:每行是一个单词 ,这样我们就可以将这个单词转成一个字符数组 ,然后对这个数组进行排序,再将排序后的字符数组组装成一个新的单词 作为K 阅读全文
posted @ 2018-08-11 01:12 oldsix666 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 数据准备 "数据集下载点击这里" 数据格式说明 //视频名称 视频网站 播放量 收藏数 评论数 踩数 赞数 川东游击队 3 2713 0 0 0 0 视频网站中数字所代表的的网站:1优酷2搜狐3土豆4爱奇艺5迅雷看看 实例需求 将相同的视频网站类型的数据放到同一个分区,以便可以按网站类别进行统计每个 阅读全文
posted @ 2018-08-11 00:59 oldsix666 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 实例需求 统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件中 数据集 "数据集下载点击这里" 数据格式:编号 联系人 电话号码 日期 思路分析 map阶段:将 联系人 + 电话号码 + 日期中的月份 组合成的作为 key,value为1 reduce阶段:相同key做value相加操 阅读全文
posted @ 2018-08-11 00:59 oldsix666 阅读(1350) 评论(0) 推荐(0) 编辑
摘要: 配置文件的整合 集群中已安装hive的情况 将 下的 拷贝到 中,即可 集群中未安装hive的情况 在 创建一个 ,再对xml文件配置一下可以访问的metadata即可 对应metadata的数据库驱动 将对应数据库的驱动放于 目录下,这样Spark在启动的时候会去自动加载 在启动Spark时通过 阅读全文
posted @ 2018-08-10 23:49 oldsix666 阅读(647) 评论(0) 推荐(0) 编辑