摘要:
一,map 阶段: 1,切片是由输入格式化类来实现的,默认切片大小等于block size 2,一个切片(逻辑概念,一个map处理数据的大小)对应一个map, 所有的 map 执行完之后才执行 reduce 3,默认的情况下 一个 block对应一个map程序,也可以使用窗口机制(切片) 使得一个 阅读全文
摘要:
一,namenode 介绍说明: 1,namenode 保存的是文件元数据(namenode进程维护者虚拟的目录树) 2,namenode 接受来自 datanode 的block 列表提交 3,namenode 完全基于内存存储(新建元数据等),namenode 是通过快照与log信息来实现恢复的 阅读全文
摘要:
impala 介绍: 1,impala 提供对 hdfs, hbase 数据的高性能,低延迟的交互式 sql查询功能 2,impala 是完全基于hive 的内存计算(中间计算不落地磁盘),spark 中间可以落地 3,impala 完全依赖于 hive, 一次性将 hive 中所有的元数据加载到内 阅读全文
摘要:
dataframe dataset 与 SparkSession 1,dataframe 是 dataset[Row] 2,dataframe 存储着 schema(数据的结构信息,字段与类型等) 信息 3,dataset 可以实现实时批量处理的一种方式 4,RDD dataframe DataSet 可以互相转换 5,SparkSession(编程入口) 整合了 S... 阅读全文
摘要:
Spark Streaming 架构: 1,Spark Streaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中,从输入源收集数据并保存为 RDD。 2,收集到输入数据后会把数据复制到另一个执行器进程来保障容错性(默 认行为)。数据保存在执行器进程的内存中,和缓存 RDD 的方式一样。 3,驱动器程序中的 StreamingContext 会周期... 阅读全文