大数据

大数据

 

 

 

#大数据关键技术
hdfs MapReduce spark hbase flink

#大数据计算模式
批处理 : 针对大规模数据的批量处理  (MapReduce、spark)
流计算 : 针对流数据的实时计算 (flume、storm、s4、streams、puma、pstream、super mario、银河流数据处理平台等)
图计算 : 针对大规模图结构数据的处理 (pregel、graphx,giraph等)
查询分析计算 : 大规模数据的存储管理和查询分析 (Hive、dremel、Cassandra、Impala等)

 

spark sql

Map
Reduce
groupby
join
filter

 

spark和hadoop的区别

 

 

 

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)""Reduce(归约)
差别MapReduce:
    hadoop: 读取-》写入-》读取-》写入
    spark: 读取-》储存在内存中-》读取-》储存在内存中
    内存中查询比磁盘中查询速度快

spark 可以替代hadoop中的
MapReduce
hadoop 中的HDFS,HBase 还是无法替代

 

 

 

 

 

spark概括

运行模式多样化 可访问:
HDFS :分布式文件系统
Cassandra :NoSQL数据库系统
HBase :分布式的、面向列的开源数据库 分布式存储系统 (Hadoop Database)
    HBase系统上运行批处理运算,最方便和实用的模型依然是MapReduce
    使用Pig Latin流式编程语言来操作HBase中的数据
Hive :Hadoop的一个数据仓库工具

 

spark生态系统

 

 

 

 

 

spark 基本概念和架构设计

 

 

 

RDD运行原理及概念

惰性机制:只记录轨迹,需要“动作触发计算”
避免不必要的序列换和反序列化
窄依赖 :父对子 一对一 可流水线工作优化(map,filter,union)
宽依赖(Shuffle操作,写入磁盘):父对子 一对多 不可流水线优化(groupByKey)

1.RDD读取外部数据源进行创建
2.RDD讲过一系列转换(Transformation)操作,每一次都会产生不同的RDD供给下一次转换操作使用
3.最后一个RDD经过“动作”操作进行转换并输出到外部数据源

 

RDD运行原理

 

 

 

saprk 运行流程

 

spark模式

 

 

Local
集群三种模式
Standalone : 使用Spark自带的集群资源管理器,效率较低
YARN:
  Driver程序运行的节点不同
  yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果
  yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境
Mesos :集群资源管理器

 

posted @ 2022-11-09 10:50  驰念  阅读(178)  评论(0编辑  收藏  举报