摘要:
分布式计算需要: • 分区控制 • Shuffle控制 • 数据存储\序列化\发送 • 数据计算API • 等一系列功能 这些功能, 不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成. 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需功能. 阅读全文
摘要:
分布式计算需要: • 分区控制 • Shuffle控制 • 数据存储\序列化\发送 • 数据计算API • 等一系列功能 这些功能, 不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成. 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需功能. 阅读全文
摘要:
Spark解决什么问题? 海量数据的计算,可以进行离线批处理以及实时流计算 Spark有哪些模块? 核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming )、图计算(GraphX)、机器学习(MLlib) Spark特点有哪些? 速度快、使用简单、通用性强、多 阅读全文
摘要:
Spark提供多种运行模式,包括: 本地模式(单机) 本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境 Standalone模式(集群) Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境 Hadoop YARN模式(集群) Spark中 阅读全文
摘要:
park 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运 阅读全文
摘要:
由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比 Hadoop的MapReduce快100倍,在硬盘中要快10倍。 Spark处理数据与MapReduce处理数据相比,有如下两个不同点: 其一、Spark处理数据时 阅读全文
摘要:
1.1 Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction 阅读全文
摘要:
1 用例图 用例图包含参与者、用例和关系这三种核心元素,不同的视角可以得到不同的用例视图,它展现了系统的功能性需求。 所谓不同的视角,可以对应面向对象分析设计的三阶段。 2 类图 类图用于展示系统中的类及其相互之间的关系。 类图建模常用的方式是从概念层,到说明层,最后到实现层这么一个抽象层次逐步降低 阅读全文
|