Spark - 随笔分类 - aidodoo

spark知识体系-Structured Streaming

摘要：概述 Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。您可以以静态数据表示批量计算的方式来表达 streaming computation （流式计算）。 Spark S 阅读全文

posted @ 2018-06-30 13:46 aidodoo 阅读(740) 评论(0) 推荐(0)

spark知识体系-Spark Streaming

摘要：基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, joi 阅读全文

posted @ 2018-06-30 12:36 aidodoo 阅读(250) 评论(0) 推荐(0)

spark知识体系-SQL,DataFrames,DateSets

摘要：简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括阅读全文

posted @ 2018-06-30 12:18 aidodoo 阅读(243) 评论(0) 推荐(0)

spark知识体系-Rdds,Accumulators,Broadcasts

摘要：详解spark常用rdd 阅读全文

posted @ 2018-06-30 10:43 aidodoo 阅读(290) 评论(0) 推荐(0)

spark知识体系-运行架构

摘要：本篇主要讲解spark运行架构，包含如下内容： Spark运行架构基本概念 Application Spark的应用程序，包含一个Driver program和若干Executor SparkContext Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node的Execu 阅读全文

posted @ 2018-06-27 22:26 aidodoo 阅读(706) 评论(0) 推荐(0)

spark知识体系-spark简介和生态系统

摘要：spark简介和生态系统 Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms, Machines and People）实验室于2009年开发，是基于内存计算的大数据并行计算框架，相对对hadoop有如下特点特点运行速度快 Spark拥有DAG执行引擎，支持阅读全文

posted @ 2018-06-27 21:55 aidodoo 阅读(564) 评论(0) 推荐(0)

大数据平台搭建-spark集群安装

摘要：本系列文章主要阐述大数据计算平台相关框架的搭建，包括如下内容： "基础环境安装" "zookeeper集群的搭建" "kafka集群的搭建" "hadoop/hbase集群的搭建" "spark集群的搭建" flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建版本要阅读全文

posted @ 2017-09-06 15:53 aidodoo 阅读(350) 评论(0) 推荐(0)

aidodoo

业精于勤荒于嬉，行成于思毁于随

随笔分类 - Spark