liuxiaopang
减肥路漫漫,编程遥无期
摘要: 表1表2的join和表3表4的join同时运行 此法需要关注是否有数据倾斜(大量数据集中在某一区间段) 阅读全文
posted @ 2017-11-01 17:36 liuxiaopang 阅读(159) 评论(0) 推荐(0) 编辑
摘要: dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比 如果服务器物理内存128G,则容器内存建议为100比较合理 配置总量时考虑系统调优块,双路四核2*4*2=16g,则总量设置为10到12比较合适,需要预留空间给其他服务器 需要给 阅读全文
posted @ 2017-11-01 15:55 liuxiaopang 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 内核参数overcommit_memory 它是 内存分配策略 可选值:0、1、2。0, 表示内核将检查是否有足够的可用内存供应用进程使用;如果有足够的可用内存,内存申请允许;否则,内存申请失败,并把错误返回给应用进程。1, 表示内核允许分配所有的物理内存,而不管当前的内存状态如何。2, 表示内核允 阅读全文
posted @ 2017-11-01 15:18 liuxiaopang 阅读(328) 评论(0) 推荐(0) 编辑
摘要: ResourceManageer服务器需要选择性能较好的 若有1TB数据,每天增量为10GB,则需要预留17.8TB,*3是因为有三分备份,*1.3是因为还需要预留出空间给操作系统等等 若集群在三十台以上,建议使用万兆交换机,性能提高显著,但是价格是千兆交换机的三倍 阅读全文
posted @ 2017-11-01 14:26 liuxiaopang 阅读(233) 评论(0) 推荐(0) 编辑
摘要: hive基本hql语法 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中 阅读全文
posted @ 2017-11-01 11:16 liuxiaopang 阅读(212) 评论(0) 推荐(0) 编辑
摘要: Yarn减轻了JobTracker的负担,对其进行了解耦 阅读全文
posted @ 2017-10-30 18:18 liuxiaopang 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 1.成百上千台服务器组成集群,需要时刻检测服务器是否故障 2.用流读取数据更加高效快速 3.存储节点具有运算功能,省略了服务器之间来回传数据的网络带宽限制 4.一次写入,多次访问,不修改数据 5.多平台 namenode:master,负责总体调度,处理协调请求等(一个集群只能有一个namenode 阅读全文
posted @ 2017-10-25 16:14 liuxiaopang 阅读(157) 评论(0) 推荐(0) 编辑
摘要: hadoop使用java编写,版本较为混乱,初学者可从1.2.1开始学习 阅读全文
posted @ 2017-10-25 11:14 liuxiaopang 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 昨晚用dom4j中的selectSingleNode解析xml,匹配节点。 发现匹配不到,但是确实存在该节点 将regex改为regex1后则可以匹配,也就是说文件中的“阿里旺旺”和程序中的“阿里旺旺”不相等。 此时有经验的人都会想到编码问题,于是我尝试各种编码发现都不行,结果最后在此处发现UTF- 阅读全文
posted @ 2017-09-22 14:24 liuxiaopang 阅读(486) 评论(0) 推荐(1) 编辑
摘要: 有时候大家在爬虫的时候会遇到要登录的情况,如果不登录则爬不到自己想要的东西,这里以博客园为例,here we go~~ 首先简单的介绍一下selenium和phantomJS: selenium是一款测试工具,能够模拟用户对浏览器进行操作, phantomJS是一款轻便式浏览器,其没有界面并且功能相 阅读全文
posted @ 2017-09-15 17:29 liuxiaopang 阅读(1311) 评论(0) 推荐(1) 编辑