liuxiaopang - 博客园

2017年11月1日

摘要：表1表2的join和表3表4的join同时运行此法需要关注是否有数据倾斜（大量数据集中在某一区间段）阅读全文

posted @ 2017-11-01 17:36 liuxiaopang 阅读(159) 评论(0) 推荐(0) 编辑

摘要： dfs.datanode.handler.count默认为3，大集群可以调整为10 传统MapReduce和yarn对比如果服务器物理内存128G，则容器内存建议为100比较合理配置总量时考虑系统调优块，双路四核2*4*2=16g，则总量设置为10到12比较合适，需要预留空间给其他服务器需要给阅读全文

posted @ 2017-11-01 15:55 liuxiaopang 阅读(265) 评论(0) 推荐(0) 编辑

六、Hadoop学习笔记————调优之操作系统以及JVM

摘要：内核参数overcommit_memory 它是内存分配策略可选值：0、1、2。0，表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。1，表示内核允许分配所有的物理内存，而不管当前的内存状态如何。2，表示内核允阅读全文

posted @ 2017-11-01 15:18 liuxiaopang 阅读(328) 评论(0) 推荐(0) 编辑

五、Hadoop学习笔记————调优之硬件选择

摘要： ResourceManageer服务器需要选择性能较好的若有1TB数据，每天增量为10GB，则需要预留17.8TB，*3是因为有三分备份，*1.3是因为还需要预留出空间给操作系统等等若集群在三十台以上，建议使用万兆交换机，性能提高显著，但是价格是千兆交换机的三倍阅读全文

posted @ 2017-11-01 14:26 liuxiaopang 阅读(233) 评论(0) 推荐(0) 编辑

四、Hadoop学习笔记————各种工具用法

摘要： hive基本hql语法 Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中阅读全文

posted @ 2017-11-01 11:16 liuxiaopang 阅读(212) 评论(0) 推荐(0) 编辑

2017年10月30日

三、Hadoop学习笔记————从MapReduce到Yarn

摘要： Yarn减轻了JobTracker的负担，对其进行了解耦阅读全文

posted @ 2017-10-30 18:18 liuxiaopang 阅读(160) 评论(0) 推荐(0) 编辑

2017年10月25日

二、Hadoop学习笔记————架构学习

摘要： 1.成百上千台服务器组成集群，需要时刻检测服务器是否故障 2.用流读取数据更加高效快速 3.存储节点具有运算功能，省略了服务器之间来回传数据的网络带宽限制 4.一次写入，多次访问，不修改数据 5.多平台 namenode:master，负责总体调度，处理协调请求等（一个集群只能有一个namenode 阅读全文

posted @ 2017-10-25 16:14 liuxiaopang 阅读(157) 评论(0) 推荐(0) 编辑

一、Hadoop学习笔记————概述

摘要： hadoop使用java编写，版本较为混乱，初学者可从1.2.1开始学习阅读全文

posted @ 2017-10-25 11:14 liuxiaopang 阅读(127) 评论(0) 推荐(0) 编辑

2017年9月22日

UTF-8和UTF-8无BOM，一个会导致文件中中文变量无法匹配的bug

摘要：昨晚用dom4j中的selectSingleNode解析xml，匹配节点。发现匹配不到，但是确实存在该节点将regex改为regex1后则可以匹配，也就是说文件中的“阿里旺旺”和程序中的“阿里旺旺”不相等。此时有经验的人都会想到编码问题，于是我尝试各种编码发现都不行，结果最后在此处发现UTF- 阅读全文

posted @ 2017-09-22 14:24 liuxiaopang 阅读(486) 评论(0) 推荐(1) 编辑

2017年9月15日

爬虫：用selenium+phantomJS实现简单的登录破解，本文以博客园的登录为例

摘要：有时候大家在爬虫的时候会遇到要登录的情况，如果不登录则爬不到自己想要的东西，这里以博客园为例，here we go~~ 首先简单的介绍一下selenium和phantomJS： selenium是一款测试工具，能够模拟用户对浏览器进行操作， phantomJS是一款轻便式浏览器，其没有界面并且功能相阅读全文

posted @ 2017-09-15 17:29 liuxiaopang 阅读(1311) 评论(0) 推荐(1) 编辑