上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 22 下一页
摘要: 我们进行 Spark 进行编程的时候, 初始化工作是在driver端完成的 ,而 实际的运行程序是在executor端进行 ,所以就涉及到了进程间的通讯,数据是需要序列化的 1、传递函数 说明: (1)直接运行程序会报错: 。因为 用到了 ,所以对象 this需要序列化 , 才能把对象从driver 阅读全文
posted @ 2019-12-17 12:44 hyunbar 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 1、reduce(func) 通过func函数聚集RDD 中的所有元素, 先聚合分区内数据,再聚合分区间数据。 2、collect 以 的形式返回 RDD 中的所有元素. 所以要慎用 3、count 返回 RDD 中元素的个数. 4、take(n) 返回 RDD 中 组成的 . take 的数据也会 阅读全文
posted @ 2019-12-16 12:27 hyunbar 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 大多数的 Spark 操作可以用在任意类型的 RDD 上, 但是有一些比较特殊的操作只能用在key value类型的 RDD 上. 这些特殊操作大多都涉及到 shuffle 操作, 比如: 按照 key 分组(group), 聚集(aggregate)等. 在 Spark 中, 这些操作在包含 的 阅读全文
posted @ 2019-12-15 21:36 hyunbar 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa 阅读全文
posted @ 2019-12-15 19:45 hyunbar 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f 阅读全文
posted @ 2019-12-15 19:28 hyunbar 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 一、RDD创建的3种方式: 1、从集合中创建RDD 2、从外部存储创建RDD 3、从其他RDD转换得到新的RDD 二、从集合中创建RDD 1、使用parallelize函数创建 1 scala> val arr = Array(10,20,30,40,50,60) 2 arr: Array[Int] 阅读全文
posted @ 2019-12-13 09:56 hyunbar 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 一、什么是RDD 1、RDD(Resilient Distributed DataSet)弹性分布式数据集 2、是Spark中最基本的数据抽象 3、在代码中是一个抽象类,它代表一个弹性的、不可变的、可分区,里面的元素可并行计算的集合 二、RDD的5个主要属性(property) 1、A list o 阅读全文
posted @ 2019-12-10 21:13 hyunbar 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 一、表的分类 1、实体表 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。 2、维度表 维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。 比如地区表,订单状态,支付方式,审批状态,商品分类等等。 3、事务型事实表 事务型事实表,一般指随着业务发生不断产生的 阅读全文
posted @ 2019-11-18 19:10 hyunbar 阅读(623) 评论(0) 推荐(0) 编辑
摘要: 一、flume事务 put事务流程: 1、doPut:将批量数据先写入临时缓冲区putList 2、doCommit:检查Channel内存队列是否足够, (1)达到一定时间没有数据写入到putList (2)达到了putListCapcity容量 3、doRollback:Channel内存队列空 阅读全文
posted @ 2019-11-07 15:58 hyunbar 阅读(190) 评论(1) 推荐(0) 编辑
摘要: 1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp 阅读全文
posted @ 2019-10-28 18:26 hyunbar 阅读(712) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 22 下一页