CM记录-选择合适的硬件

hadoop的运行环境---hadoop/jvm/os/hw

原则1:主节点的可靠性要好于从节点:NameNode(Yarn-ResourceManager)、DataNode(NodeManager)可靠性要好于其他节点

原则2:多路多核、高频率CPU、大内存的服务器---NameNode的内存决定了集群保存文件数的总量,ResourceManager同时运行的作业会消耗一定的内存

从节点的内存需要根据CPU的虚拟核数vcore进行配比,CPU的vcore数计算公式为=CPU个数*单CPU核数*HT(超线程数)

内存总量大小=vcore*2GB(至少2GB),至少32GB

原则3:根据数据量来确定集群规模:如(1TB+10GB*365)*3*1.3=17.8TB   节点数18TB/2TB=9    总节点数=9+2=11节点,还需要作业不是均匀分布,需要预留资源

原则4:不要让网络I/O成为瓶颈---hadoop作业通常是I/O密集型而非计算密集型,瓶颈通常集中在I/O上。

原则5:根据现有硬件合理规划存储空间


posted @ 2017-10-17 23:25  信方  阅读(156)  评论(0编辑  收藏  举报