随笔分类 -  hadoop

摘要:来自:http://centoshowtos.org/hadoop/fix-corrupt-blocks-on-hdfs/ How do I know if my hadoop hdfs filesystem has corrupt blocks, and how do I fix it? The 阅读全文
posted @ 2016-05-16 13:44 悟寰轩-叶秋 编辑
摘要:http://hbase.apache.org/book/configuration.html#basic.prerequisitesHBase-0.94.xHBase-0.98.x (Support for Hadoop 1.1+ is deprecated.)HBase-1.0.x (Hadoo... 阅读全文
posted @ 2015-11-25 10:55 悟寰轩-叶秋 编辑
摘要:来自:https://www.mapr.com/blog/how-to-avoid-java-heap-space-errors-understanding-and-managing-task-attempt-memory#.VMWvNDGUfXYKeeping these five steps i... 阅读全文
posted @ 2015-01-26 15:33 悟寰轩-叶秋 编辑
摘要:来自:http://www.codesky.net/article/201206/171862.htmlmahout的taste框架是协同过滤算法的实现。它支持DataModel,如文件、数据库、NoSQL存储等,也支持Hadoop的MapReduce。这里主要分析的基于MR的实现。基于MR的CF实... 阅读全文
posted @ 2014-12-04 17:51 悟寰轩-叶秋 阅读(989) 评论(0) 推荐(1) 编辑
摘要:来自:http://blog.csdn.net/samxx8/article/details/7691868相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 ... 阅读全文
posted @ 2014-12-04 10:59 悟寰轩-叶秋 阅读(1566) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/u010967382/article/details/39209329http://blog.csdn.net/fansy1990/article/details/23261633先编译mahout源码让其支持hadoop2再把本地仓储repository里... 阅读全文
posted @ 2014-12-03 14:31 悟寰轩-叶秋 阅读(679) 评论(0) 推荐(0) 编辑
摘要:org.apache.mahout.cf.taste.hadoop.item.RecommenderJob.main(args)--input偏好数据路径,文本文件。格式 userid\t itemid\t preference--output推荐结果路径-- numRecommendations推... 阅读全文
posted @ 2014-11-28 14:24 悟寰轩-叶秋 阅读(483) 评论(0) 推荐(0) 编辑
摘要:来自:http://blog.csdn.net/heyutao007/article/details/8612906Mahout支持2种 M/R 的jobs实现itemBase的协同过滤I.ItemSimilarityJobII.RecommenderJob下面我们对RecommenderJob进行... 阅读全文
posted @ 2014-11-28 14:21 悟寰轩-叶秋 编辑
摘要:来自:http://blog.csdn.net/xyilu/article/details/9066973引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味... 阅读全文
posted @ 2014-11-18 10:43 悟寰轩-叶秋 编辑
摘要:一个Hadoop程序的优化过程 – 根据文件实际大小实现CombineFileInputFormathttp://www.rigongyizu.com/hadoop-job-optimize-combinefileinputformat/mapreduce job让一个文件只由一个map来处理htt... 阅读全文
posted @ 2014-09-15 14:01 悟寰轩-叶秋 编辑
摘要:来自:http://blog.csdn.net/dandingyy/article/details/7490046众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getm... 阅读全文
posted @ 2014-09-12 16:28 悟寰轩-叶秋 编辑
摘要:http://grepalex.com/2013/05/20/multipleoutputs-part1/http://grepalex.com/2013/07/16/multipleoutputs-part2/ 阅读全文
posted @ 2014-09-12 11:11 悟寰轩-叶秋 编辑
摘要:来自:http://f.dataguru.cn/thread-271645-1-1.html简介本文主要介绍下面4个方面1.为什么要使用CombineFileInputFormat2.CombineFileInputFormat实现原理3.怎样使用CombineFileInputFormat4.现存... 阅读全文
posted @ 2014-09-11 13:52 悟寰轩-叶秋 编辑
摘要:来自:http://www.geedoo.info/dfs-client-block-write-replace-datanode-on-failure-enable.html这几天由于杭州集群处于升级过度时期,任务量大,集群节点少(4个DN),集群不断出现问题,导致flume收集数据出现错误,以致... 阅读全文
posted @ 2014-09-05 10:15 悟寰轩-叶秋 编辑
摘要:来自:http://blog.csdn.net/yangjl38/article/details/75833741获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这... 阅读全文
posted @ 2014-09-05 10:12 悟寰轩-叶秋 编辑
摘要:几种压缩方式对比:LZO example:https://github.com/twitter/hadoop-lzo/blob/master/src/test/java/com/hadoop/mapreduce/TestLzoTextInputFormat.java给lzo文件加索引的目的是为了让l... 阅读全文
posted @ 2014-08-14 14:52 悟寰轩-叶秋 编辑
摘要:来自:http://heipark.iteye.com/blog/1171923通过 "conf.set("tmpjars", jars);" 可以设置第三方jar,之前一直只是添加一个jar,运行OK,今天打算添加多个jar的时候发现mapreduce在运行时找不到 class(ClassNotF... 阅读全文
posted @ 2014-08-08 15:23 悟寰轩-叶秋 编辑
摘要:目前为止知道MapReduce有三种路径输入方式。1、第一种是通过一下方式输入:FileInputFormat.addInputPath(job, new Path(args[0]));FileInputFormat.addInputPath(job, new Path(args[1]));File... 阅读全文
posted @ 2014-08-08 11:54 悟寰轩-叶秋 编辑
摘要:hadoop 2.x版本编译:javac -d . -classpath /usr/lib/hadoop/hadoop-common-2.2.0.2.0.6.0-102.jar TestGetPathMark.java(classpath多个jar包用分号分隔 /opt/1.jar:/opt/2.j... 阅读全文
posted @ 2014-08-05 14:58 悟寰轩-叶秋 编辑
摘要:来自:http://hadoopi.wordpress.com/2014/06/05/hadoop-add-third-party-libraries-to-mapreduce-job/Anybody working with Hadoop should have already faced a s... 阅读全文
posted @ 2014-07-15 16:40 悟寰轩-叶秋 阅读(671) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示