摘要: HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。 与传统的关系型数据库类似,HBase 也以表的形式组织数据,表也由行和列组成;不 阅读全文
posted @ 2021-12-22 19:26 贱贱的小帅哥 阅读(130) 评论(0) 推荐(0) 编辑
摘要: hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习 阅读全文
posted @ 2021-12-22 09:50 贱贱的小帅哥 阅读(315) 评论(0) 推荐(0) 编辑
摘要: HDFS:DataNode存储数据,NameNode负责告诉别人数据存储在哪个节点,哪些信息,2NN,备份NameNode. YARN:整个集群资源的管理。 MapReduce: (1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干 阅读全文
posted @ 2021-12-21 09:58 贱贱的小帅哥 阅读(1822) 评论(0) 推荐(0) 编辑
摘要: (1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 M 阅读全文
posted @ 2021-12-20 21:45 贱贱的小帅哥 阅读(41) 评论(0) 推荐(0) 编辑
摘要: (1) 客户端向NameNode发起RPC请求,来获取请求文件Block数据块所在的位置。 (2) NameNode检测元数据文件,会视情况返回Block块信息或者全部Block块信息,对于每个Block块,NameNode都会返回含有该Block副本的DataNode地址。 (3) 客户端会选取排 阅读全文
posted @ 2021-12-20 20:55 贱贱的小帅哥 阅读(119) 评论(0) 推荐(0) 编辑
摘要: HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小,2.X/3.X版本中是128M,1.X版本中是64M。128M指的是上限。 (1) 客户端发起文件上传请求,通过RPC(远程过程调用)与NameNode建立通讯。 (2) Nam 阅读全文
posted @ 2021-12-20 20:50 贱贱的小帅哥 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的名称空间;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求 2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写 阅读全文
posted @ 2021-12-20 20:30 贱贱的小帅哥 阅读(77) 评论(0) 推荐(0) 编辑
摘要: HDFS定义:是一个文件系统,用于存储文件、通过目录树来定位文件,其次,他是分布式得,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS主要使用场景:一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS特性: hdfs是一个分布式的文件系统,用于存储文件, 阅读全文
posted @ 2021-12-20 20:20 贱贱的小帅哥 阅读(47) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一个分布式运算程序的编程框架,是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可 阅读全文
posted @ 2021-12-20 16:05 贱贱的小帅哥 阅读(308) 评论(0) 推荐(0) 编辑
摘要: Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。而MapReduce等运算程序相当于运行于操作系统之上的应用程序。主要管理CPU和内存 阅读全文
posted @ 2021-12-20 16:03 贱贱的小帅哥 阅读(43) 评论(0) 推荐(0) 编辑