随笔分类 -  Spark

摘要:概述 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark S 阅读全文
posted @ 2018-06-30 13:46 aidodoo 阅读(691) 评论(0) 推荐(0) 编辑
摘要:基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, joi 阅读全文
posted @ 2018-06-30 12:36 aidodoo 阅读(226) 评论(0) 推荐(0) 编辑
摘要:简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 阅读全文
posted @ 2018-06-30 12:18 aidodoo 阅读(224) 评论(0) 推荐(0) 编辑
摘要:详解spark常用rdd 阅读全文
posted @ 2018-06-30 10:43 aidodoo 阅读(281) 评论(0) 推荐(0) 编辑
摘要:本篇主要讲解spark运行架构,包含如下内容: Spark运行架构 基本概念 Application Spark的应用程序,包含一个Driver program和若干Executor SparkContext Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node的Execu 阅读全文
posted @ 2018-06-27 22:26 aidodoo 阅读(651) 评论(0) 推荐(0) 编辑
摘要:spark简介和生态系统 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,相对对hadoop有如下特点 特点 运行速度快 Spark拥有DAG执行引擎,支持 阅读全文
posted @ 2018-06-27 21:55 aidodoo 阅读(554) 评论(0) 推荐(0) 编辑
摘要:本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: "基础环境安装" "zookeeper集群的搭建" "kafka集群的搭建" "hadoop/hbase集群的搭建" "spark集群的搭建" flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 版本要 阅读全文
posted @ 2017-09-06 15:53 aidodoo 阅读(330) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示