摘要:
hadoop集群性能低下的常见原因(一)硬件环境1、CPU/内存不足,或未充分利用2、网络原因3、磁盘原因(二)map任务原因1、输入文件中小文件过多,导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜:大文件且不可分割,导致处理这些文件的map需要很长时间。3、数据本地化效果差。(三)... 阅读全文
摘要:
Injector Job的主要功能是根据crawlId在hbase中创建一个表,将将文本中的seed注入表中。(一)命令执行1、运行命令[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetestInjectorJob: st... 阅读全文
摘要:
http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeep... 阅读全文
摘要:
一、决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中 推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的 内部节点进行属性的比较,并... 阅读全文
摘要:
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。一、Mah... 阅读全文
摘要:
介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond... 阅读全文
摘要:
一、数据准备1、每天生成随机一个文本,每小时向文本中追加2次数据,每次10万条随机数据生成:2,32 * * * * bash /mnt/jediael/irms/signalGenerator/signalGenerator.sh >> /home/jediael/sg.log 2>&1类:Sig... 阅读全文
摘要:
1、基本格式第1列分钟1~59第2列小时1~23(0表示子夜)第3列日1~31第4列月1~12第5列星期0~6(0表示星期天)第6列要运行的命令2、关于日志(1)基本日志位于 /var/log/cron,但这个日志只能看任务是否有被运行。(2)关于运行脚本产生的日志,可以重定向到某个文件中,如:2,... 阅读全文
摘要:
大部分内容参考http://www.linuxidc.com/Linux/2012-04/58178.htm J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命... 阅读全文
摘要:
实验简单来讲就是1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值)3... 阅读全文