2017 年 11月 1 日随笔档案 - liuxiaopang

2017年11月1日

摘要：表1表2的join和表3表4的join同时运行此法需要关注是否有数据倾斜（大量数据集中在某一区间段）阅读全文

posted @ 2017-11-01 17:36 liuxiaopang 阅读(159) 评论(0) 推荐(0) 编辑

摘要： dfs.datanode.handler.count默认为3，大集群可以调整为10 传统MapReduce和yarn对比如果服务器物理内存128G，则容器内存建议为100比较合理配置总量时考虑系统调优块，双路四核2*4*2=16g，则总量设置为10到12比较合适，需要预留空间给其他服务器需要给阅读全文

posted @ 2017-11-01 15:55 liuxiaopang 阅读(265) 评论(0) 推荐(0) 编辑

六、Hadoop学习笔记————调优之操作系统以及JVM

摘要：内核参数overcommit_memory 它是内存分配策略可选值：0、1、2。0，表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。1，表示内核允许分配所有的物理内存，而不管当前的内存状态如何。2，表示内核允阅读全文

posted @ 2017-11-01 15:18 liuxiaopang 阅读(328) 评论(0) 推荐(0) 编辑

五、Hadoop学习笔记————调优之硬件选择

摘要： ResourceManageer服务器需要选择性能较好的若有1TB数据，每天增量为10GB，则需要预留17.8TB，*3是因为有三分备份，*1.3是因为还需要预留出空间给操作系统等等若集群在三十台以上，建议使用万兆交换机，性能提高显著，但是价格是千兆交换机的三倍阅读全文

posted @ 2017-11-01 14:26 liuxiaopang 阅读(233) 评论(0) 推荐(0) 编辑

四、Hadoop学习笔记————各种工具用法

摘要： hive基本hql语法 Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中阅读全文

posted @ 2017-11-01 11:16 liuxiaopang 阅读(212) 评论(0) 推荐(0) 编辑