摘要: 1.避免使用swap分区---将hadoop守护进程的数据交换到磁盘的行为可能会导致操作超时:物理内存(交换)--Swap分区2.调整内存分配策略---操作系统内核根据vm.overcommit_memory(0-表示是否可用的内存,1-表示分配所有的物理内存,2-表示分配所有的物理内存和交换空间的... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(245) 评论(0) 推荐(0) 编辑
摘要: hadoop的运行环境---hadoop/jvm/os/hw原则1:主节点的可靠性要好于从节点:NameNode(Yarn-ResourceManager)、DataNode(NodeManager)可靠性要好于其他节点原则2:多路多核、高频率CPU、大内存的服务器---NameNode的内存决定了... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1.堆栈大小2.JVM重用3.GC 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS调优a.设置合理的块大小(dfs.block.size)b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir)c.设置DataNode处理RPC的线程数(默认为3),大集群可适当加大点(dfs.datanode.handler.count)d.设置Nam... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1663) 评论(0) 推荐(0) 编辑
摘要: 1.Join优化a.map joinb.reduce join小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize(默认为25000000)来定... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1.自动化运维--cloudera manager2.手动运维a.启动./start.all.sh,停止./stop-all.shb.hdfs启动/停止:./start-dfs.sh ./stop-dfs.shc.启动单个:./hadoop-daemon.sh start/stop nameno... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 1.Hmaster的Web接口-端口参数:hbase.master.info.port 默认为16010http://hbase_master_server:16010可查看hbase的版本信息,hbase的基本配置信息,hbase在hdfs中的存储路径、zookeeper的节点、集群的负载信息、... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(3196) 评论(0) 推荐(0) 编辑
摘要: 1.进入hbase shell 执行./bin/hbase shell2.进入后,help 帮助信息,如可以使用help 'create'3.创建表:create ‘test’,'cf' 表名-列族4.列出所有表:list 5.查看表的结构信息:describe ‘test’6.插入数据:pu... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(2846) 评论(0) 推荐(0) 编辑
摘要: 1.RowCounter工具可以查看某张表有多少行,效率非常高2.count命令在数据量大的时候效率非常差执行./hbase org.apache.hadoop.habse.mapreduce.RowCounter test3.WAL(Write Ahead Log)预写日志HLog,发生的更新操... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(182) 评论(0) 推荐(0) 编辑
摘要: Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统,适用于实时读写、随机访问超大规模数据的集群。HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(534) 评论(0) 推荐(0) 编辑