09 2019 档案

摘要:一、HDFS 写数据流程 写的过程: CLIENT(客户端):用来发起读写请求,并拆分文件成多个 Block; NAMENODE:全局的协调和把控所有的请求,提供 Block 存放在 DataNode 上的地址; DATANODE:负责数据的存储,可以有很多个; 客户端想 NameNode 发出请求 阅读全文
posted @ 2019-09-02 15:04 何永灿 阅读(1216) 评论(0) 推荐(0) 编辑
摘要:所有的内容都来源与 Hadoop 官方文档 一、Hadoop 伪分布式安装步骤 1)JDK安装 解压:tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app 添加到系统环境变量: ~/.bash_profile export JAVA_HOME=/home/hado 阅读全文
posted @ 2019-09-02 11:21 何永灿 阅读(466) 评论(0) 推荐(0) 编辑
摘要:一、HDFS 的设计思路 1)思路 切分数据,并进行多副本存储; 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题 缺点 不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能成为网络瓶颈,很难进行大数据的处理; 存储负载很难均衡,每个节点的利用率很低; 二、HD 阅读全文
posted @ 2019-09-02 09:03 何永灿 阅读(2198) 评论(0) 推荐(0) 编辑
摘要:一、简介 定义:开源的,做分布式存储与分布式计算的平台; 功能:搭建大型数据仓库,对PB级数据进行存储、处理、分析、统计等业务;(如日志分析、数据挖掘) Hadoop工作模块 Common:提供框架和工具,对其它Hadoop模块的支持; Distributed File System(HDFS:分布 阅读全文
posted @ 2019-09-01 21:41 何永灿 阅读(623) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示