摘要: 1. Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: HDFS(分布式文件系统): 阅读全文
posted @ 2019-09-10 23:56 DaBai的黑屋 阅读(4399) 评论(1) 推荐(1) 编辑
摘要: 是什么? 分布式文件存储系统(是一个跨多台机器的文件存储系统) HDFS设计,特性: 分布式:标准的主从架构(NameNode DataNode) 一次写入多次读取:数据侧重于分析 注重数据吞吐量,交互延迟高,不适合做网盘 侧重于大文件存储,不利于小文件,小文件吃内存 基本原理: 对外如同一个黑盒子 阅读全文
posted @ 2019-09-10 23:51 DaBai的黑屋 阅读(246) 评论(0) 推荐(0) 编辑
摘要: HDFS架构 NameNode DataNode Secondary NameNode 元数据存储细节 <!--more--> 一、NameNode 是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。文件包括: hdfs-s 阅读全文
posted @ 2019-09-10 23:50 DaBai的黑屋 阅读(164) 评论(0) 推荐(0) 编辑
摘要: hadoop archive的使用 产生背景:hdfs架构设计不利于小文件存储 文件不管多小 都需要元数据描述记录 如果集群小文件过多 可能磁盘使用情况很低 但是内存使用确很高 俗称 小文件吃内存 档案的功能:通过mr程序 把多个小文件 合并成一个档案文件 archive的使用 档案的创建 hado 阅读全文
posted @ 2019-09-10 23:49 DaBai的黑屋 阅读(444) 评论(0) 推荐(0) 编辑
摘要: HDFS的底层原理 HDFS的底层通信原理采用的是:RPC和动态代理对象Proxy(一)RPC 什么是RPC? Remote Procedure Call,远程过程调用。也就是说,调用过程代码并不是在调用者本地运行,而是要实现调用者与被调用者二地之间的连接与通信。RPC的基本通信模型是基于Clien 阅读全文
posted @ 2019-09-10 23:47 DaBai的黑屋 阅读(483) 评论(0) 推荐(0) 编辑
摘要: HDFS的安全模式 什么是安全模式?<!--more--> 安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。如果HDFS处于安全模式,则表示HDFS是只读状态。 当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs. 阅读全文
posted @ 2019-09-10 23:45 DaBai的黑屋 阅读(610) 评论(1) 推荐(0) 编辑
摘要: HDFS Java API 一、 简介 想要使用 HDFS API,需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址: 二、API的使用 2.1 FileSystem FileSystem 是所有 HDFS 操作的主入口。由于之后的每个单元测试 阅读全文
posted @ 2019-09-10 23:43 DaBai的黑屋 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 1.1. HDFS写数据流程 <!--more--> 详细步骤解析: 1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传; 2、client请求第一个 block该传输到哪些DataNode服务器上; 3、 阅读全文
posted @ 2019-09-10 23:41 DaBai的黑屋 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1.1. HDFS读数据流程 详细步骤解析: 1、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置; 2、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该block副本的DataNode地址; 3、  阅读全文
posted @ 2019-09-10 23:40 DaBai的黑屋 阅读(228) 评论(0) 推荐(0) 编辑
摘要: NameNode负责管理整个文件系统元数据。DataNode负责管理具体的文件数据块存储!Secondary NameNode 协助NameNode进行元数据备份! 客户端访问HDFS都是通过向NameNode申请进行 <wiz_tmp_tag id="wiz-table-range-border" 阅读全文
posted @ 2019-09-10 23:39 DaBai的黑屋 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 1. NameNode概述 a、NameNode是HDFS的核心。 b、NameNode也称为Master。 c、NameNode仅存储HDFS的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。 d、NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。 e、N 阅读全文
posted @ 2019-09-10 23:35 DaBai的黑屋 阅读(166) 评论(0) 推荐(0) 编辑
摘要: hdfs文件的限额配置允许我们以文件大小或者文件个数来限制在某个目录下上传的文件数量或者文件内容总量,以便达到类似百度网盘网盘等限制每个用户允许上传的最大的文件的量。 1.1. 数量限额 执行以下命令进行文件数量限额 hadoop fs -mkdir -p /user/root/lisi #创建hd 阅读全文
posted @ 2019-09-10 23:31 DaBai的黑屋 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 具体操作: 具体操作: hadoop fs -ls file:/// 访问是本地系统 1.1. Shell 命令选项 选项名称 使用格式 含义 -ls -ls <路径> 查看指定路径的当前目录结构 -lsr -lsr <路径> 递归查看指定路径的目录结构 -du -du <路径> 统计目录下个文件大 阅读全文
posted @ 2019-09-10 23:29 DaBai的黑屋 阅读(581) 评论(0) 推荐(0) 编辑
摘要: HDFS简介: HDFS特性: 首先是一个文件系统,用于存储文件,提供统一的命名空间的目录树结构 便于用户操作文件系统! 其次,他是一个分布式文件存储系统,分布式意味着多台机器 当中不同的角色 各司其职,共同配合!<!--more--> master/slave主从架构: 分块存储: HDFS中的文 阅读全文
posted @ 2019-09-10 23:26 DaBai的黑屋 阅读(184) 评论(0) 推荐(0) 编辑
摘要: Hadoop家族: 双中台架构: 附件列表 附件列表 阅读全文
posted @ 2019-09-10 23:22 DaBai的黑屋 阅读(143) 评论(0) 推荐(0) 编辑
摘要: hadoop科普 hadoop科普 伪分布式搭建: 阅读全文
posted @ 2019-09-10 23:20 DaBai的黑屋 阅读(162) 评论(0) 推荐(0) 编辑
Live2D