摘要:
一、分布式文件存储面临的挑战 1.海量数据存储问题 采用多台服务器,支持横向扩展 2.海量数据问题查询便捷问题 使用元数据记录文件和机器的位置信息 3.大文件传输效率慢问题 分块存储,分别存储在多台机器上,并行操作提高效率 4.数据丢失问题 冗余存储,多副本机制 5.解决用户查询视角统一规整问题 可 阅读全文
摘要:
一、节点上线 1.新机器安装环境准备 参考集群安装文档环境准备 2.namenode节点配置 [root@hdp01 hadoop]# cat workers hdp01.dialev.com hdp02.dialev.com hdp03.dialev.com hdp04.dialev.com [r 阅读全文
摘要:
一、短路本地读取(Short Circuit Local Reads) 1.1 背景 在HDFS中,不管是Local Reads ( DFSClient和Datanode在同一个节点)还是Remote Reads ( DFSClient和Datanode不在同一个节点), 底层处理方式都是一样的,都 阅读全文
摘要:
一、安全模式现象探究 1.1 关闭所有服务,使用命令单独启动服务 使用hdfs --daemon命令逐个进程启动集群,观察现象 1.首先启动namenode stop-all.sh jps hdfs --daemon start namenode jps hadoop fs -ls / #使用ls浏 阅读全文
摘要:
一、数据迁移使用场景 1.冷热集群数据同步、分类存储 2.整体数据整体搬迁 3.数据准实时同步(备份) 二、考量因素 1.网络传输带宽及时间,是否会影响现有业务 2.性能,单机?多线程?分布式? 3.是否正常增量同步 4.数据迁移的同步性(同步单位时间数据超过单位时间) 三、DistCp工具使用 3 阅读全文
摘要:
一、Hadoop 简介 1.1 Hadoop3核心组件 HDFS:分布式文件系统:解决海量数据存储 YARN:集群资源管理和任务调度框架:解决资源任务调度 MapReduce:分布式计算框架:解决海量数据计算 1.2 Hadoop集群简介 Hadoop集群包括两个集群:HDFS YARN 两个集群 阅读全文
摘要:
一、安装编译相关依赖 此篇文档及Hadoop相关文档相关软件包统一在此百度网盘: 链接:https://pan.baidu.com/s/11F4THdIfgrULMn2gNcObRA?pwd=cjll yum install snappy snappy-devel bzip2 bzip2-devel 阅读全文