上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页
摘要: OLAP百家争鸣 OLAP简介 OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。 联机分析处理 (O 阅读全文
posted @ 2020-03-17 10:01 hyunbar 阅读(10053) 评论(0) 推荐(0) 编辑
摘要: 引言 ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用: 今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB 阅读全文
posted @ 2020-03-16 21:09 hyunbar 阅读(3146) 评论(0) 推荐(0) 编辑
摘要: 传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op 阅读全文
posted @ 2020-03-14 12:07 hyunbar 阅读(1915) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2020-03-11 10:19 hyunbar 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Master源码 1 package org.apache.spark.deploy.master 2 //伴生类 3 private[deploy] class Master( 4 override val rpcEnv: RpcEnv, 5 address: RpcAddress, 6 webU 阅读全文
posted @ 2019-12-22 12:25 hyunbar 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 1、start-all.sh脚本,实际上执行java -cp Master 和 java -cp Worker 2、Master 启动时首先穿件一个RpcEnv对象,负责管理所有通信逻辑 3、Master 通信RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worke 阅读全文
posted @ 2019-12-22 12:22 hyunbar 阅读(928) 评论(0) 推荐(0) 编辑
摘要: 1、RpcEndpoint: RPC端点 Spark针对每个节点(Client、Master、Worker)都称之为一个RpcEndpoint,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则内部调用Dispatcher的对应方法 说 阅读全文
posted @ 2019-12-22 12:20 hyunbar 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes 阅读全文
posted @ 2019-12-22 12:16 hyunbar 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1、无状态转换操作 (1)无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转换DStream中的每一个RDD。 部分无状态转化操作: (2)尽管这些函数韩起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上。 阅读全文
posted @ 2019-12-19 17:28 hyunbar 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 1、查看 RDD 的血缘关系 说明: 圆括号(2): 2表示RDD的并行度,几个分区 2、查看RDD的依赖关系 RDD之间的关系可以从两个维度来理解: (1)一个是RDD从哪些RDD转换而来,也就是RDD的parent RDD(s)是什么 (2)另一个是RDD依赖于parent RDD(s)的哪些 阅读全文
posted @ 2019-12-17 16:58 hyunbar 阅读(276) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 22 下一页