2023 年 2月 17 日随笔档案 - 百衲本

2023年2月17日

摘要：一、分布式文件存储面临的挑战 1.海量数据存储问题采用多台服务器，支持横向扩展 2.海量数据问题查询便捷问题使用元数据记录文件和机器的位置信息 3.大文件传输效率慢问题分块存储，分别存储在多台机器上，并行操作提高效率 4.数据丢失问题冗余存储，多副本机制 5.解决用户查询视角统一规整问题可阅读全文

posted @ 2023-02-17 16:18 百衲本阅读(289) 评论(0) 推荐(0) 编辑

HDFS 节点动态管理

摘要：一、节点上线 1.新机器安装环境准备参考集群安装文档环境准备 2.namenode节点配置 [root@hdp01 hadoop]# cat workers hdp01.dialev.com hdp02.dialev.com hdp03.dialev.com hdp04.dialev.com [r 阅读全文

posted @ 2023-02-17 15:59 百衲本阅读(60) 评论(0) 推荐(0) 编辑

HDFS优化方案

摘要：一、短路本地读取(Short Circuit Local Reads) 1.1 背景在HDFS中，不管是Local Reads ( DFSClient和Datanode在同一个节点）还是Remote Reads ( DFSClient和Datanode不在同一个节点），底层处理方式都是一样的，都阅读全文

posted @ 2023-02-17 15:49 百衲本阅读(346) 评论(0) 推荐(0) 编辑

HDFS NAMENODE 安全模式

摘要：一、安全模式现象探究 1.1 关闭所有服务，使用命令单独启动服务使用hdfs --daemon命令逐个进程启动集群，观察现象 1.首先启动namenode stop-all.sh jps hdfs --daemon start namenode jps hadoop fs -ls / #使用ls浏阅读全文

posted @ 2023-02-17 15:11 百衲本阅读(347) 评论(0) 推荐(0) 编辑

HDFS数据(跨集群)迁移

摘要：一、数据迁移使用场景 1.冷热集群数据同步、分类存储 2.整体数据整体搬迁 3.数据准实时同步(备份) 二、考量因素 1.网络传输带宽及时间，是否会影响现有业务 2.性能，单机？多线程？分布式？ 3.是否正常增量同步 4.数据迁移的同步性(同步单位时间数据超过单位时间) 三、DistCp工具使用 3 阅读全文

posted @ 2023-02-17 15:03 百衲本阅读(1074) 评论(0) 推荐(0) 编辑

centos7二进制安装Hadoop3

摘要：一、Hadoop 简介 1.1 Hadoop3核心组件 HDFS：分布式文件系统：解决海量数据存储 YARN：集群资源管理和任务调度框架：解决资源任务调度 MapReduce：分布式计算框架：解决海量数据计算 1.2 Hadoop集群简介 Hadoop集群包括两个集群：HDFS YARN 两个集群阅读全文

posted @ 2023-02-17 14:52 百衲本阅读(47) 评论(0) 推荐(0) 编辑

centos7编译安装Hadoop3

摘要：一、安装编译相关依赖此篇文档及Hadoop相关文档相关软件包统一在此百度网盘：链接：https://pan.baidu.com/s/11F4THdIfgrULMn2gNcObRA?pwd=cjll yum install snappy snappy-devel bzip2 bzip2-devel 阅读全文

posted @ 2023-02-17 14:26 百衲本阅读(69) 评论(0) 推荐(0) 编辑

Mr. Pan

I can because i think i can.

公告