摘要:
1、Shuffle [从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer] mapper对job任务进行键值对构建并写入环形内存缓冲区[缓冲区满了,map停止直到全写入磁盘],大小100MB(io.sort. 阅读全文
摘要:
相关详细说明:https://www.csdn.net/article/2015-07-10/2825184 RDD:弹性分布式数据集。 Operation:Transformation 和Action,一个返回RDD,一个返回值。 Lineage:RDD之间的依赖关系,如何演变过来。 Partit 阅读全文
摘要:
Hadoop的分布式协同服务,让分布式系统碰到失败时候,能够正确处理此类问题。基础功能:master选举,数据同步。Zooleeper集群有Client和Server(leader和follower),且台数为奇数。若半数以上完好,则能够提供服务。。 Client和Server(leader和fol 阅读全文
摘要:
大规模结构化集群存储数据库。Table中的所有行都按照row key的字典序排列。 主键:row Key。访问行只能通过rowKey访问(范围或者准确值),或者全表扫描; 列族:cloumn family。hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使 阅读全文
摘要:
HDFS:分布式文件系统,运行文件通过网络在多台主机分享的文件系统,分块写入(128M),适用于一次写入多次查询,不支持并发写(只能一块一块写),小文件不合适。 nameNode(主节点,单个): 保存HDFS的元数据信息(命名空间信息、文件系统的目录树、文件和block关系即文件对应block列表 阅读全文
摘要:
YARN(Yet Another Resource Negotiator): 是一种新的 Hadoop 资源管理器 [ResourceManager:纯粹的调度器,基于应用程序对资源的需求进行调度的,不对应用进行监控和状态跟踪。ResourceManager中有一个模块叫做ApplicationsM 阅读全文
摘要:
Git Git常用命令[git保存的是操作,而不是文件] $ cd <仓库名称F:\gitRepository > //进入指定仓库 $ git init //将指定目录变成Git管理仓库 $ git config --global user.name "Your Name" //定义全局名称,所有 阅读全文