liuxiaopang
减肥路漫漫,编程遥无期
摘要: 表1表2的join和表3表4的join同时运行 此法需要关注是否有数据倾斜(大量数据集中在某一区间段) 阅读全文
posted @ 2017-11-01 17:36 liuxiaopang 阅读(159) 评论(0) 推荐(0) 编辑
摘要: dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比 如果服务器物理内存128G,则容器内存建议为100比较合理 配置总量时考虑系统调优块,双路四核2*4*2=16g,则总量设置为10到12比较合适,需要预留空间给其他服务器 需要给 阅读全文
posted @ 2017-11-01 15:55 liuxiaopang 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 内核参数overcommit_memory 它是 内存分配策略 可选值:0、1、2。0, 表示内核将检查是否有足够的可用内存供应用进程使用;如果有足够的可用内存,内存申请允许;否则,内存申请失败,并把错误返回给应用进程。1, 表示内核允许分配所有的物理内存,而不管当前的内存状态如何。2, 表示内核允 阅读全文
posted @ 2017-11-01 15:18 liuxiaopang 阅读(328) 评论(0) 推荐(0) 编辑
摘要: ResourceManageer服务器需要选择性能较好的 若有1TB数据,每天增量为10GB,则需要预留17.8TB,*3是因为有三分备份,*1.3是因为还需要预留出空间给操作系统等等 若集群在三十台以上,建议使用万兆交换机,性能提高显著,但是价格是千兆交换机的三倍 阅读全文
posted @ 2017-11-01 14:26 liuxiaopang 阅读(233) 评论(0) 推荐(0) 编辑
摘要: hive基本hql语法 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中 阅读全文
posted @ 2017-11-01 11:16 liuxiaopang 阅读(212) 评论(0) 推荐(0) 编辑