spark - 随笔分类 - 天戈朱

join分析：shuffle hash join、broadcast hash join

摘要：Join 背景介绍 Join 是数据库查询永远绕不开的话题，传统查询 SQL 技术总体可以分为简单操作（过滤操作、排序操作等），聚合操作-groupby 以及 Join 操作等。其中 Join 操作是最复杂、代价最大的操作类型，也是 OLAP 场景中使用相对较多的操作。另外，从业务层面来讲，用户阅读全文

posted @ 2021-09-05 17:48 天戈朱阅读(4841) 评论(0) 推荐(1) 编辑

流式处理框架对比

摘要：分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程，与MapReduce一样是一种通用计算框架，期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示，用它来描述流处理作业的拓扑。在选择不同的流处理系统时，通常会关注以下几点：运行时和编程模型：平台阅读全文

posted @ 2017-07-05 23:36 天戈朱阅读(11926) 评论(0) 推荐(1) 编辑

Spark(四): Spark-sql 读hbase

摘要：SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler, 具体配置参见：Hive(五):hive与hbase整合目录： SparkSql 访问 hbase配置测试验证 SparkSql 访问 hb 阅读全文

posted @ 2016-09-01 21:25 天戈朱阅读(9375) 评论(0) 推荐(0) 编辑

Spark(三): 安装与配置

摘要：参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录： Spark集群安装参数配置测试验证 Spark集群安装：在ambari 阅读全文

posted @ 2016-08-31 23:49 天戈朱阅读(4978) 评论(0) 推荐(0) 编辑

Spark(二): 内存管理

摘要：Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1 阅读全文

posted @ 2016-08-31 23:47 天戈朱阅读(7228) 评论(0) 推荐(0) 编辑

Spark(一): 基本架构及原理

摘要：Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统阅读全文

posted @ 2016-08-30 21:51 天戈朱阅读(69438) 评论(4) 推荐(8) 编辑

天戈朱