摘要:
向MR申请的内存默认是1024,但不想用默认的内存分配,如何配置? 内存分配配置 在mapred-site.xml中增加如下配置: <property> <name>yarn.app.mapreduce.am.resource.mb</name> <value>1200</value> <descr 阅读全文
摘要:
HA:High Available(高可用性) 集群规划: 集群规划讲解: 两个NameNode之间需要数据进行同步,使用Journal nodes来同步,这个进程建议部署奇数个(3、5等)。 两个NameNode,哪一个才是masterNameNode呢,需要使用Zookeeper来选举。 Zoo 阅读全文
摘要:
为什么需要Zookeeper? 为了防止集群的主NameNode挂掉,再另创建一个辅NameNode,两个保持数据同步,一旦主NameNode挂掉,集群就会把辅NameNode节点作为整个集群的主NameNode,而在这之间就需要用到Zookeeper来协调,帮助辅NameNode成为整个集群的主N 阅读全文
摘要:
每台机器的应用程序都需要连接数据库,而数据库的配置信息(连接信息),这时候放在机器本地的话不方面(机器多,需要一个个改配置信息),这就用到Zookeeper,把数据库的配置信息放到配置中心,利用Zookeeper节点可以存储数据的特性,然后各台机器可以使用JavaAPI去获取Zookeeper中数据 阅读全文
摘要:
如果要master机器挂掉,单机版的Zookeeper就提供不了服务了,所以要多安装几个节点的Zookeeper服务,所以要安装分布式的Zookeeper 进入到zk中的conf目录,配置zoo.cfg文件,如下: vi zoo.cfg 填写如下配置: server.0=master:8880:77 阅读全文
摘要:
rebalance 有时候HDFS集群并不平衡,可能在一个DataNode中数据量很多,而另一个DataNode中数据量很少,这就导致整个集群使用率低,有些节点压力小,有些节点压力大,集群不稳定。加入刚加进来一个DataNode节点,压力比较轻,而别的DataNode节点负载压力中,需要平衡一下数据 阅读全文
摘要:
Snapshots用于数据备份、保护数据不被破坏 基本命令 允许这个文件路径可以创建snapshots: hdfs dfsadmin -allowSnapshot /user/hadoop-twq/cmd 创建snapshots hdfs dfs -createSnapshot /user/hado 阅读全文
摘要:
为了解决Federation配置的问题(访问集群的时候我们要记住每个NameNode所在节点的名称) ViewFS配置(在master节点配置): 配置前先关闭集群 1、配置core-site.xml: 将原本的文件: <configuration > <property> <name>fs.def 阅读全文
摘要:
NameNode怎样扩展? 首先要明确为什么要扩展NameNode,因为NameNode存储在内存中,而内存容量是有限的,当一台节点NameNode内存满了,不足以存放的时候,就需要扩展,(NameNode管理了很多文件,每个文件下又有很多数据块,数据会膨胀的很厉害,当集群大到一定程度的时候,上亿, 阅读全文
摘要:
创建一个321M的big_file.txt文件: 写一个脚本:vi test.sh,内容: #!/bin/bash for((i=0;i<=$1;i++)) do echo "just an example" >> big_file.txt done 执行脚本:bash test.sh 100(增加 阅读全文