CM记录-选择合适的硬件
hadoop的运行环境---hadoop/jvm/os/hw
原则1:主节点的可靠性要好于从节点:NameNode(Yarn-ResourceManager)、DataNode(NodeManager)可靠性要好于其他节点
原则2:多路多核、高频率CPU、大内存的服务器---NameNode的内存决定了集群保存文件数的总量,ResourceManager同时运行的作业会消耗一定的内存
从节点的内存需要根据CPU的虚拟核数vcore进行配比,CPU的vcore数计算公式为=CPU个数*单CPU核数*HT(超线程数)
内存总量大小=vcore*2GB(至少2GB),至少32GB
原则3:根据数据量来确定集群规模:如(1TB+10GB*365)*3*1.3=17.8TB 节点数18TB/2TB=9 总节点数=9+2=11节点,还需要作业不是均匀分布,需要预留资源
原则4:不要让网络I/O成为瓶颈---hadoop作业通常是I/O密集型而非计算密集型,瓶颈通常集中在I/O上。
原则5:根据现有硬件合理规划存储空间