大数据

#大数据关键技术
hdfs MapReduce spark hbase flink

#大数据计算模式
批处理 ： 针对大规模数据的批量处理  （MapReduce、spark）
流计算 ： 针对流数据的实时计算 （flume、storm、s4、streams、puma、pstream、super mario、银河流数据处理平台等）
图计算 ： 针对大规模图结构数据的处理 （pregel、graphx，giraph等）
查询分析计算 ： 大规模数据的存储管理和查询分析 （Hive、dremel、Cassandra、Impala等）

spark sql

Map
Reduce
groupby
join
filter

spark和hadoop的区别

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）
差别MapReduce：
    hadoop： 读取-》写入-》读取-》写入
    spark： 读取-》储存在内存中-》读取-》储存在内存中
    内存中查询比磁盘中查询速度快

spark 可以替代hadoop中的MapReduce 
hadoop 中的HDFS，HBase 还是无法替代

spark概括

运行模式多样化 可访问：
HDFS ：分布式文件系统
Cassandra ：NoSQL数据库系统
HBase ：分布式的、面向列的开源数据库 分布式存储系统 （Hadoop Database）
    HBase系统上运行批处理运算，最方便和实用的模型依然是MapReduce
    使用Pig Latin流式编程语言来操作HBase中的数据
Hive ：Hadoop的一个数据仓库工具

spark生态系统

spark 基本概念和架构设计

RDD运行原理及概念

惰性机制：只记录轨迹，需要“动作触发计算”
避免不必要的序列换和反序列化
窄依赖 ：父对子 一对一 可流水线工作优化（map，filter，union）
宽依赖（Shuffle操作，写入磁盘）：父对子 一对多 不可流水线优化（groupByKey）

1.RDD读取外部数据源进行创建
2.RDD讲过一系列转换（Transformation）操作，每一次都会产生不同的RDD供给下一次转换操作使用
3.最后一个RDD经过“动作”操作进行转换并输出到外部数据源

RDD运行原理

saprk 运行流程

spark模式

Local
集群三种模式
Standalone ： 使用Spark自带的集群资源管理器，效率较低
YARN：
　　Driver程序运行的节点不同
　　yarn-client模式：Driver运行在客户端上，此模式适用于调试，并且可以直接查看结果
　　yarn-cluster模式：Driver运行在NodeManager的ApplicationMaster上，此模式适用于生产环境
Mesos ：集群资源管理器

posted @ 2022-11-09 10:50 驰念阅读(257) 评论(0) 收藏举报

刷新页面返回顶部

陌维

大数据

大数据

spark sql

spark和hadoop的区别

spark概括

spark生态系统

spark 基本概念和架构设计

RDD运行原理及概念

RDD运行原理

saprk 运行流程

spark模式

公告