博客园  :: 首页  :: 联系 :: 管理

随笔分类 -  spark

摘要:Join 背景介绍 Join 是数据库查询永远绕不开的话题,传统查询 SQL 技术总体可以分为简单操作(过滤操作、排序操作 等),聚合操作-groupby 以及 Join 操作等。其中 Join 操作是最复杂、代价最大的操作类型,也是 OLAP 场景中使用相对较多的操作。 另外,从业务层面来讲,用户 阅读全文

posted @ 2021-09-05 17:48 天戈朱 阅读(4841) 评论(0) 推荐(1) 编辑

摘要:分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框架,期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示,用它来描述流处理作业的拓扑。在选择不同的流处理系统时,通常会关注以下几点: 运行时和编程模型:平台 阅读全文

posted @ 2017-07-05 23:36 天戈朱 阅读(11926) 评论(0) 推荐(1) 编辑

摘要:SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb 阅读全文

posted @ 2016-09-01 21:25 天戈朱 阅读(9375) 评论(0) 推荐(0) 编辑

摘要:参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。 目录: Spark集群安装 参数配置 测试验证 Spark集群安装: 在ambari 阅读全文

posted @ 2016-08-31 23:49 天戈朱 阅读(4978) 评论(0) 推荐(0) 编辑

摘要:Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1 阅读全文

posted @ 2016-08-31 23:47 天戈朱 阅读(7228) 评论(0) 推荐(0) 编辑

摘要:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 阅读全文

posted @ 2016-08-30 21:51 天戈朱 阅读(69438) 评论(4) 推荐(8) 编辑