eagleGeek - 博客园

2015年3月13日

摘要： hadoop集群性能低下的常见原因（一）硬件环境1、CPU/内存不足，或未充分利用2、网络原因3、磁盘原因（二）map任务原因1、输入文件中小文件过多，导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜：大文件且不可分割，导致处理这些文件的map需要很长时间。3、数据本地化效果差。（三）... 阅读全文

posted @ 2015-03-13 20:51 eagleGeek 阅读(179) 评论(0) 推荐(0) 编辑

2015年3月10日

Injector Job深入分析

摘要： Injector Job的主要功能是根据crawlId在hbase中创建一个表，将将文本中的seed注入表中。（一）命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: st... 阅读全文

posted @ 2015-03-10 15:44 eagleGeek 阅读(197) 评论(0) 推荐(0) 编辑

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

摘要： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeep... 阅读全文

posted @ 2015-03-10 10:14 eagleGeek 阅读(180) 评论(0) 推荐(0) 编辑

2015年3月9日

分类算法简介

摘要：一、决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并... 阅读全文

posted @ 2015-03-09 11:08 eagleGeek 阅读(904) 评论(0) 推荐(0) 编辑

2015年3月7日

Mahout快速入门教程

摘要： Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。一、Mah... 阅读全文

posted @ 2015-03-07 16:20 eagleGeek 阅读(602) 评论(0) 推荐(0) 编辑

2015年3月6日

使用ganglia监控hadoop及hbase集群

摘要：介绍性内容来自：http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond... 阅读全文

posted @ 2015-03-06 20:53 eagleGeek 阅读(204) 评论(0) 推荐(0) 编辑

irms模拟数据生成及数据分析

摘要：一、数据准备1、每天生成随机一个文本，每小时向文本中追加2次数据，每次10万条随机数据生成：2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类：Sig... 阅读全文

posted @ 2015-03-06 14:17 eagleGeek 阅读(200) 评论(0) 推荐(0) 编辑

crontab经验

摘要： 1、基本格式第1列分钟1～59第2列小时1～23（0表示子夜）第3列日1～31第4列月1～12第5列星期0～6（0表示星期天）第6列要运行的命令2、关于日志（1）基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。（2）关于运行脚本产生的日志，可以重定向到某个文件中，如：2,... 阅读全文

posted @ 2015-03-06 11:17 eagleGeek 阅读(106) 评论(0) 推荐(0) 编辑

2015年3月2日

hprof教程

摘要：大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling，叫做HPROF。HPROF实际上是JVM中的一个native的库，它会在JVM启动的时候通过命... 阅读全文

posted @ 2015-03-02 12:18 eagleGeek 阅读(1468) 评论(0) 推荐(0) 编辑

hadoop容灾能力测试

摘要：实验简单来讲就是1. put 一个600M文件，分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode，使得大部分的block只在一个datanode上存在，但因为9个很分散，所以文件能正确取回（靠的是checksum来计算文件值）3... 阅读全文

posted @ 2015-03-02 09:38 eagleGeek 阅读(445) 评论(0) 推荐(0) 编辑

公告