摘要: 使用场景 原理分析 先回顾下归并排序算法: Hbase里将多个小的有序的storefile合并成一个大的有序的storefile的过程跟归并排序差不多。但是不知道为什么归并排序算法就分出两个小有序集合而不是多个有序集合。Hbase就是多个小的有序集合合并成大的有序集合。 下面看看归并排序的思想。将两 阅读全文
posted @ 2018-01-12 15:07 心随风飞930 阅读(1103) 评论(0) 推荐(0) 编辑
摘要: Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文
posted @ 2017-12-31 09:41 心随风飞930 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 原文连接:http://blog.csdn.net/rlnLo2pNEfx9c/article/details/78778959 Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多 阅读全文
posted @ 2017-12-31 09:35 心随风飞930 阅读(263) 评论(0) 推荐(0) 编辑
摘要: Spark算子:RDD基本转换操作(1)–map、flagMap、distinct Spark算子:RDD创建操作 Spark算子:RDD基本转换操作(2)–coalesce、repartition Spark算子:RDD基本转换操作(3)–randomSplit、glom Spark算子:RDD基 阅读全文
posted @ 2017-12-25 18:26 心随风飞930 阅读(191) 评论(0) 推荐(0) 编辑
摘要: CPU总核数 = 物理CPU个数 * 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 * 每颗物理CPU的核数 * 超线程数 这些都代表什么,那就请看CPU架构 多个物理CPU,CPU通过总线进行通信,效率比较低,如下: 多核CPU,不同的核通过L2 cache进行通信,存储和外设通过总线 阅读全文
posted @ 2017-12-25 17:53 心随风飞930 阅读(192) 评论(0) 推荐(0) 编辑
摘要: Spark On YARN内存和CPU分配 问题描述: 在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如: --executor-memory 8G --executor-cores 5 --num-executors 阅读全文
posted @ 2017-12-25 16:44 心随风飞930 阅读(3675) 评论(0) 推荐(0) 编辑
摘要: 【YARN中内存资源的调度和隔离】 基于以上考虑,YARN允许用户配置每个节点上可用的物理内存资源,注意,这里是“可用的”,因为一个节点上的内存会被若干个服务共享,比如一部分给YARN,一部分给HDFS,一部分给HBase等,YARN配置的只是自己可以使用的,配置参数如下: (1)yarn.node 阅读全文
posted @ 2017-12-25 16:34 心随风飞930 阅读(970) 评论(0) 推荐(0) 编辑
摘要: [Spark性能调优] Spark Shuffle 中 JVM 内存使用及配置详情 本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原 阅读全文
posted @ 2017-12-24 19:34 心随风飞930 阅读(2141) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming中的操作函数讲解 根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations Join Operations Output Op 阅读全文
posted @ 2017-12-22 13:10 心随风飞930 阅读(502) 评论(0) 推荐(0) 编辑
摘要: Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。 1 Kafka消息队列简介 1.1 基本术 阅读全文
posted @ 2017-12-18 21:51 心随风飞930 阅读(748) 评论(0) 推荐(0) 编辑