oldsix666 - 博客园

2018年8月11日

摘要： RDD依赖关系在RDD中将依赖划分成两种类型：窄依赖( ) 和宽依赖( ) 窄依赖每个父RDD的分区都至多被一个子RDD的分区使用父RDD与子RDD的关系为 (一个父RDD对应一个子RDD) 或者 (多个父RDD对应一个子RDD) 比如、、宽依赖多个子RDD的分区依赖一个父RDD的分阅读全文

posted @ 2018-08-11 01:18 oldsix666 阅读(303) 评论(0) 推荐(0) 编辑

spark编程模型（二）之RDD分区

摘要：一、RDD分区的含义 RDD 内部的数据集合在逻辑上和物理上被划分成多个子集合分布到集群的节点中，这样的每一个子集合我们将其称为分区( ) 分区个数的多少涉及对该RDD进行并行计算的粒度 spark会为每个分区起一个单独的任务进行计算，因此并行任务的个数，也是由分区的个数决定的分区是一个逻辑概念，阅读全文

posted @ 2018-08-11 01:16 oldsix666 阅读(377) 评论(0) 推荐(0) 编辑

spark编程模型（一）之RDD的类型

摘要： spark中的RDD操作类型可以分为四类：创建操作（）、转换操作（）、控制操作（）、行为操作（）创建操作( ) 主要用于创建。创建的两种方法，一种是或者一个已存在的集合，另一种是在外部存储系统（比如、`HBASE`）中引用一个数据集转换操作( ) 将通过一定的操作变换成新的阅读全文

posted @ 2018-08-11 01:16 oldsix666 阅读(267) 评论(0) 推荐(0) 编辑

spark分析某国气象站平均气温实例

摘要：一、数据集分析数据文件按照气象站和日期进行组织，每个气象站都是一个总目录，而且每个气象站下面从 1980 年到 2010 年，每一年又都作为一个子目录。因为某国有成千上万个气象站，所以整个数据集由大量的小文件组成。通常情况下，处理少量的大型文件更容易、更有效，因此，这些数据需要经过预处理，将每个阅读全文

posted @ 2018-08-11 01:13 oldsix666 阅读(375) 评论(0) 推荐(0) 编辑

spark查找相同字母组成的字谜实例

摘要：项目需求一本英文书籍包含成千上万个单词，现在我们需要在大量的单词中，找出相同字母组成的所有单词数据集 "数据集下载点击这里" 实现分析观察数据集的数据，可以知道：每行是一个单词，这样我们就可以将这个单词转成一个字符数组，然后对这个数组进行排序，再将排序后的字符数组组装成一个新的单词作为K 阅读全文

posted @ 2018-08-11 01:12 oldsix666 阅读(155) 评论(0) 推荐(0) 编辑

spark自定义分区实例

摘要：数据准备 "数据集下载点击这里" 数据格式说明 //视频名称视频网站播放量收藏数评论数踩数赞数川东游击队 3 2713 0 0 0 0 视频网站中数字所代表的的网站：1优酷2搜狐3土豆4爱奇艺5迅雷看看实例需求将相同的视频网站类型的数据放到同一个分区，以便可以按网站类别进行统计每个阅读全文

posted @ 2018-08-11 00:59 oldsix666 阅读(840) 评论(0) 推荐(0) 编辑

spark多文件输出实例

摘要：实例需求统计每个月每个家庭成员给自己打电话的次数，并按月份输出到不同文件中数据集 "数据集下载点击这里" 数据格式：编号联系人电话号码日期思路分析 map阶段：将联系人 + 电话号码 + 日期中的月份组合成的作为 key，value为1 reduce阶段：相同key做value相加操阅读全文

posted @ 2018-08-11 00:59 oldsix666 阅读(1350) 评论(0) 推荐(0) 编辑

2018年8月10日

Hive 与 SparkSQL 整合

摘要：配置文件的整合集群中已安装hive的情况将下的拷贝到中，即可集群中未安装hive的情况在创建一个，再对xml文件配置一下可以访问的metadata即可对应metadata的数据库驱动将对应数据库的驱动放于目录下，这样Spark在启动的时候会去自动加载在启动Spark时通过阅读全文

posted @ 2018-08-10 23:49 oldsix666 阅读(647) 评论(0) 推荐(0) 编辑

一条五香

愿漂泊的人都有酒喝，愿孤独的人都会唱歌。

公告