随笔分类 - hdfs
摘要:进程介绍 1. Zkfc(ZKFailoverController)作用: 切换NN状态; 对NN进行心跳保持(监听),当发现NN active异常,会通知Zookeeper,然后ZK重新选举一个新的NN接管,切换成NN active状态; 2. JournalNode NameNode之间共享数据
阅读全文
摘要:||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作;50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口;50075(datanode的web访问端口)| |||snn(50090 snn的
阅读全文
摘要:在hdfs的namenode所在结点的Hadoop的安装目录的etc/hadoop目录下创建一个dfs.hosts.exclude文件 填写dfs需要的退役的节点主机名 [root@node1 hadoop]# pwd /opt/app/hadoop-2.8.5/etc/hadoop [root@n
阅读全文
摘要:克隆 克隆当前的虚拟机 修改3台虚拟机的ip地址和主机名 vim /etc/sysconfig/network-scripts/ifcfg-ens33 将IPADDR修改为192.168.200.225 重新启动网络服务使其生效 systemctl restart network 配置主机名的映射
阅读全文
摘要:作用 |组件|作用| | | | |NameNode|1.用于去存储和管理整个HDFS集群的元数据(在namenode中维护了两个文件edits和fsimage) 2.用于管理整个集群的状态及维护数据的一致性| |SecondaryNode|帮助我们NameNode完成相关的元数据的操作| |edi
阅读全文
摘要:pom.xml文件 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <!-- 引入Hadoop的编程依赖 hadoop-common hadoop-client 版本是统一的 都是2.8
阅读全文
摘要:创建一个普通的java项目 导入jar包 附:jar包如何来的 代码阶段 上传下载文件 package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; im
阅读全文
摘要:package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.
阅读全文
摘要:两种操作 hadoop fs hdfs dfs 具体的命令查看hdfs dfs --help hdfs和linux本地的命令的操作不同 [root@node1 ~]# hdfs dfs -tail -f /a.txt * ** *** ***** [root@node1 ~]# tail -n 10
阅读全文
摘要:在/opt/app/hadoop-2.8.5/etc/hadoop目录下,修改hdfs-site.xml文件 <property> <name>dfs.block.size</name> <value>26214400</value> </property> # 如果设置块的大小为250M,则设置2
阅读全文
摘要:注意:寻址时间不能变,寻址时间为传输时间的1%也不能变。
阅读全文
摘要:   2. Shuffle的作用范围 一般把数据
阅读全文
摘要:1.高可用集群搭建 2.准备安装环境 tar -zxvf hadoop-3.1.2.tar.gz mv hadoop-3.1.2 /opt/ cd /opt/hadoop-3.1.2/etc/hadoop/ 3.修改集群环境 vim hadoop-env.sh # 直接在文件的最后添加 export
阅读全文
摘要:Hadoop1.x 组成 由Common(公共模块辅助工具)、HDFS(分布式数据存储)、MapReduce(分布式计算+资源调度)组成 简介 其中HDFS由一个NN和多个DN组成,MapReduce有一个JobTracker和多个TaskTracker组成。 在Hadoop1.0中容易造成单点故障
阅读全文
摘要:1. 写数据读数据 写数据流程 读数据流程 2. 为什么HDFS不支持存储小文件? 原因 占用NameNode大量的内存和磁盘来存储文件目录和块信息 读取小文件的寻址时间大于读取小文件内容的时间 解决方案 从根源上解决小文件的产生,如从每小时抽取一次修改为每天抽取一次来积累数据量 合并。写一个MR任
阅读全文