大数据学习笔记03-HDFS-HDFS组件介绍及Java访问HDFS集群

HDFS组件概述

NameNode

  • 存储数据节点信息及元文件,即:分成了多少数据块,每一个数据块存储在哪一个DataNode中,每一个数据块备份到哪些DataNode中
  • 这个集群有哪些DataNode,每一个DataNode的主机名、磁盘容量大小等信息

SecondaryNameNode

辅助NameNode来提高性能,以及防止丢数据的

DataNode

真正存储数据的节点

Client

比如命令行webHDFS及java客户端等

HDFS中的数据块(Block)

每一个数据块默认容量是128M,可以通过设置修改,在${HADOOP_HOME}/etc/hadoop/hdfs-site.xml中加上配置:

<property>
        <name>dfs.block.size</name>
		<!--修改为256M: 256*1024*1024 -->
        <value>268435456</value>
</property>

重启HDFS:stop-dfs.sh
通过WebUI查看(http://${host}:50070/**)

数据块备份

数据块默认备份数为3,可通过命令修改:hadoop fs -setrep 2 /users/hadoop-twq/cmd/word.txt

Java访问HDFS集群

参考Java访问HDFS集群

posted @   舒山  阅读(228)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2016-08-29 PL/SQL developer(绿色版)安装及配置
点击右上角即可分享
微信分享提示