随笔分类 - hadoop
摘要:来自:http://centoshowtos.org/hadoop/fix-corrupt-blocks-on-hdfs/ How do I know if my hadoop hdfs filesystem has corrupt blocks, and how do I fix it? The
阅读全文
摘要:http://hbase.apache.org/book/configuration.html#basic.prerequisitesHBase-0.94.xHBase-0.98.x (Support for Hadoop 1.1+ is deprecated.)HBase-1.0.x (Hadoo...
阅读全文
摘要:来自:https://www.mapr.com/blog/how-to-avoid-java-heap-space-errors-understanding-and-managing-task-attempt-memory#.VMWvNDGUfXYKeeping these five steps i...
阅读全文
摘要:来自:http://www.codesky.net/article/201206/171862.htmlmahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。基于MR的CF实...
阅读全文
摘要:来自:http://blog.csdn.net/samxx8/article/details/7691868相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 ...
阅读全文
摘要:http://blog.csdn.net/u010967382/article/details/39209329http://blog.csdn.net/fansy1990/article/details/23261633先编译mahout源码让其支持hadoop2再把本地仓储repository里...
阅读全文
摘要:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.main(args)--input偏好数据路径,文本文件。格式 userid\t itemid\t preference--output推荐结果路径-- numRecommendations推...
阅读全文
摘要:来自:http://blog.csdn.net/heyutao007/article/details/8612906Mahout支持2种 M/R 的jobs实现itemBase的协同过滤I.ItemSimilarityJobII.RecommenderJob下面我们对RecommenderJob进行...
阅读全文
摘要:来自:http://blog.csdn.net/xyilu/article/details/9066973引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味...
阅读全文
摘要:一个Hadoop程序的优化过程 – 根据文件实际大小实现CombineFileInputFormathttp://www.rigongyizu.com/hadoop-job-optimize-combinefileinputformat/mapreduce job让一个文件只由一个map来处理htt...
阅读全文
摘要:来自:http://blog.csdn.net/dandingyy/article/details/7490046众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getm...
阅读全文
摘要:http://grepalex.com/2013/05/20/multipleoutputs-part1/http://grepalex.com/2013/07/16/multipleoutputs-part2/
阅读全文
摘要:来自:http://f.dataguru.cn/thread-271645-1-1.html简介本文主要介绍下面4个方面1.为什么要使用CombineFileInputFormat2.CombineFileInputFormat实现原理3.怎样使用CombineFileInputFormat4.现存...
阅读全文
摘要:来自:http://www.geedoo.info/dfs-client-block-write-replace-datanode-on-failure-enable.html这几天由于杭州集群处于升级过度时期,任务量大,集群节点少(4个DN),集群不断出现问题,导致flume收集数据出现错误,以致...
阅读全文
摘要:来自:http://blog.csdn.net/yangjl38/article/details/75833741获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这...
阅读全文
摘要:几种压缩方式对比:LZO example:https://github.com/twitter/hadoop-lzo/blob/master/src/test/java/com/hadoop/mapreduce/TestLzoTextInputFormat.java给lzo文件加索引的目的是为了让l...
阅读全文
摘要:来自:http://heipark.iteye.com/blog/1171923通过 "conf.set("tmpjars", jars);" 可以设置第三方jar,之前一直只是添加一个jar,运行OK,今天打算添加多个jar的时候发现mapreduce在运行时找不到 class(ClassNotF...
阅读全文
摘要:目前为止知道MapReduce有三种路径输入方式。1、第一种是通过一下方式输入:FileInputFormat.addInputPath(job, new Path(args[0]));FileInputFormat.addInputPath(job, new Path(args[1]));File...
阅读全文
摘要:hadoop 2.x版本编译:javac -d . -classpath /usr/lib/hadoop/hadoop-common-2.2.0.2.0.6.0-102.jar TestGetPathMark.java(classpath多个jar包用分号分隔 /opt/1.jar:/opt/2.j...
阅读全文
摘要:来自:http://hadoopi.wordpress.com/2014/06/05/hadoop-add-third-party-libraries-to-mapreduce-job/Anybody working with Hadoop should have already faced a s...
阅读全文