阿笨猫 - 博客园

2011年10月8日

摘要： http://en.wikipedia.org/wiki/Faceted_searchhttp://wiki.apache.org/solr/SolrFacetingOverviewhttp://idratherbewriting.com/2010/05/20/faceted-classification-faceted-search-organizing-content-6/http://www.lucidimagination.com/devzone/technical-articles/faceted-search-solrhttp://mtj.wordpress.com/2006/09 阅读全文

posted @ 2011-10-08 17:09 阿笨猫阅读(1279) 评论(0) 推荐(0) 编辑

2011年9月26日

理解eclipse（java工程）的工作目录

摘要： http://ayin.iteye.com/blog/200312修改办法如下,不过每次只能添加一个目录,多个目录还不知道--http://eliottech.iteye.com/blog/136445首先我们说明一下elipse对工程的管理。eclipse的基本工程目录叫做workspace，每个运行时的eclipse实例只能对应一个 workspace，也就是说，workspace是当前工作的根目录。我们在workspace中可以随意创建各种java相关的工程，普通的java 应用，java web应用，web service应用等，我们仅拿普通的java application来说明。阅读全文

posted @ 2011-09-26 14:34 阿笨猫阅读(8733) 评论(0) 推荐(0) 编辑

linux 技巧：使用 screen 管理你的远程会话

摘要： http://www.ibm.com/developerworks/cn/linux/l-cn-screen/使用上面介绍的很多了下面给一份使用的配置在根目录下新建一个文件.screenrc#=============================================================# ~/.screenrc## skip the startup messagestartup_message off## Automatically detach on hangup.autodetach on## If a screen dies, don't freeze 阅读全文

posted @ 2011-09-26 14:22 阿笨猫阅读(900) 评论(0) 推荐(0) 编辑

fedora下重用ssh连接类似secureCRT的clone session功能

摘要： http://hatemysql.com/tag/ssh/本人用的fedora 12操作系统，终端里面，ssh登录到一台机器，重复登录的话，你还是要输入密码。有没有像secureCRT一样的clone session的方式一样重用同一个连接，不用输入密码列。从sa同事那边学到了一招，不敢独享。其实做起来非常简单：在你的登录账户下的.ssh文件夹新建一个文件：config.cd ~/.ssh config的文件中，内容为：host *ControlMaster autoControlPath ~/.ssh/master-%r@%h:%p 重新打开终端，第一次，你还是需要输入密码，第二次s.. 阅读全文

posted @ 2011-09-26 13:15 阿笨猫阅读(1698) 评论(0) 推荐(0) 编辑

2011年9月17日

linux svn安装和配置，不结合apache

摘要： http://blog.51yip.com/server/901.htmlhttp://blog.csdn.net/pwlazy/article/details/1713613一，安装要的软件wget http://subversion.tigris.org/downloads/subversion-1.6.1.tar.gzwget http://subversion.tigris.org/downloads/subversion-deps-1.6.1.tar.gzsvn的官方网址是http://subversion.tigris.org/上面二个压缩文件解压后会放到同一个文件下，不要另建文件阅读全文

posted @ 2011-09-17 09:39 阿笨猫阅读(2469) 评论(0) 推荐(0) 编辑

2011年9月13日

ANT build.xml文件详解

摘要： http://my.oschina.net/willSoft/blog/29314Ant的优点跨平台性。Ant是用Java语言编写的，所示具有很好的跨平台性。操作简单。Ant是由一个内置任务和可选任务组成的。Ant运行时需要一个XML文件(构建文件)。Ant通过调用target树，就可以执行各种task。每个task实现了特定接口对象。Ant开发Ant的构建文件Ant构建文件默认命名为build.xml，也可以取其他的名字。只不过在运行的时候把这个命名当作参数传给Ant。构建文件可以放在任何的位置。一般做法是放在项目顶层目录中，这样可以保持项目的简洁和清晰。下面是一个典型的项目层次结构。(1) 阅读全文

posted @ 2011-09-13 20:52 阿笨猫阅读(1290) 评论(0) 推荐(0) 编辑

2011年9月9日

Hadoop作业提交分析（五）

摘要： http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html经过上一篇的分析，我们知道了Hadoop的作业提交目标是Cluster还是Local，与conf文件夹内的配置文件参数有着密切关系，不仅如此，其它的很多类都跟conf有关，所以提交作业时切记把conf放到你的classpath中。因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的，所以这里我们采用动态载入的方式，先添加好对应的依赖库和资源，然后再构建一个URLClassLoader作为当前线程上下文的类加载器。Code highlightin.. 阅读全文

posted @ 2011-09-09 16:22 阿笨猫阅读(922) 评论(0) 推荐(0) 编辑

Hadoop作业提交分析（四）

摘要： http://www.cnblogs.com/spork/archive/2010/04/21/1717552.html前面我们所分析的部分其实只是Hadoop作业提交的前奏曲，真正的作业提交代码是在MR程序的main里，RunJar在最后会动态调用这个main，在（二）里有说明。我们下面要做的就是要比RunJar更进一步，让作业提交能在编码时就可实现，就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。一般来说，每个MR程序都会有这么一段类似的作业提交代码，这里拿WordCount的举例： Code highl.. 阅读全文

posted @ 2011-09-09 16:21 阿笨猫阅读(1154) 评论(0) 推荐(0) 编辑

2011年9月8日

Hadoop作业提交分析（三）

摘要： http://www.cnblogs.com/spork/archive/2010/04/12/1710294.html 通过前面两篇文章的分析，对Hadoop的作业提交流程基本明了了，下面我们就可以开始编写代码模拟这个流程。第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来，后面再作为类加载器的URL搜索路径。 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlight.. 阅读全文

posted @ 2011-09-08 08:51 阿笨猫阅读(632) 评论(0) 推荐(0) 编辑

2011年9月6日

Hadoop作业提交分析（二）

摘要： http://www.cnblogs.com/spork/archive/2010/04/11/1709380.html上一篇我们分析了bin/hadoop脚本，知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar，看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类，结构很简单，只有两个方法：main和unJar。我们从main开始一步步分析。 main首先检查传递参数是否符合要求，然后从第一个传递参数中获取jar包的名字，并试图从jar中包中获取manifest. 阅读全文

posted @ 2011-09-06 22:30 阿笨猫阅读(471) 评论(0) 推荐(0) 编辑

Hadoop作业提交分析（一）

摘要： http://www.cnblogs.com/spork/archive/2010/04/07/1706162.htmlCode highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->bin/hadoop jar xxx.jar mainclass args…… 这样的命令，各位玩Hadoop的估计已经调用过NN次了，每次写好一个Project或对Project做修改后，都必须打个Jar包，然后再用上面的命令提交到Hadoop Cluster上去运行，在开发阅读全文

posted @ 2011-09-06 22:08 阿笨猫阅读(934) 评论(0) 推荐(1) 编辑

Yahoo! Hadoop Tutorial

摘要：保存一个http://developer.yahoo.com/hadoop/tutorial/index.html 阅读全文

posted @ 2011-09-06 17:13 阿笨猫阅读(462) 评论(0) 推荐(0) 编辑

2011年9月3日

mapreduce的二次排序 SecondarySort

摘要：关于二次排序主要涉及到这么几个东西：在0.20.0以前使用的是setPartitionerClasssetOutputkeyComparatorClasssetOutputValueGroupingComparator在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawComparator c);下面的例子里面只用到了setGroupingComparatorClasshttp://blog 阅读全文

posted @ 2011-09-03 21:02 阿笨猫阅读(28390) 评论(0) 推荐(6) 编辑

ChainMapper和ChainReducer

摘要： The ChainMapper class allows to use multiple Mapper classes within a single Map task.The ChainReducer class allows to chain multiple Mapper classes after a Reducer within the Reducer task.http://www.oratea.net/?p=371通过ChainMapper可以将多个map类合并成一个map任务。下面个这个例子没什么实际意思，但是很好的演示了ChainMapper的作用。源文件100 tom 90 阅读全文

posted @ 2011-09-03 20:31 阿笨猫阅读(5463) 评论(0) 推荐(0) 编辑

2011年9月1日

tutorial sort reducer input values in hadoop

摘要： http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/I recently found the need to sort by value (intead of key) in Hadoop. I've seen some comments that call this a "secondary sort". Essentially, I wanted the reducer's values iterator to be sorted. There seem to 阅读全文

posted @ 2011-09-01 21:04 阿笨猫阅读(542) 评论(0) 推荐(0) 编辑

hadoop 0.20 程式開發 eclipse plugin + Makefile

摘要： http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617#%E9%9B%B6.%E5%89%8D%E8%A8%80http://qa.taobao.com/?p=10659http://ebiquity.umbc.edu/Tutorials/Hadoop/20%20-%20upload%20data.htmlhadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言¶開發hadoop 需要用到許多的物件導向語法，包括繼承關係、介面類別，而且需要匯入正確的classpath，否則寫hadoop程式只是打字練阅读全文

posted @ 2011-09-01 16:51 阿笨猫阅读(1219) 评论(0) 推荐(0) 编辑

HDFS 读写流程

摘要： http://blog.endlesscode.com/2010/06/16/hdfs-short-intro/一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的，默认的block大小为64MB，对于不足64MB的文件，其会占用一个bloc 阅读全文

posted @ 2011-09-01 16:29 阿笨猫阅读(2475) 评论(0) 推荐(1) 编辑

how mapreduce work

摘要： http://blog.endlesscode.com/2010/06/24/how-mapreduce-works/一、从Map到ReduceMapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流程的角度来看大概如下：1cat input | grep | sort | uniq -c | cat > output 2# Input -> Map -> Shuffle & Sort -> Reduce -> Output简单的流程图如下：对于Shuffl 阅读全文

posted @ 2011-09-01 16:27 阿笨猫阅读(759) 评论(0) 推荐(0) 编辑

Hadoop是怎么分块的

摘要： http://blog.chinaunix.net/space.php?uid=20602285&do=blog&cuid=2273160hadoop的分块有两部分，其中第一部分更为人熟知一点。第一部分就是数据的划分（即把File划分成Block），这个是物理上真真实实的进行了划分，数据文件上传到HDFS里的时候，需要划分成一块一块，每块的大小由hadoop-default.xml里配置选项进行划分。<property> <name>dfs.block.size</name> <value>67108864</value&g 阅读全文

posted @ 2011-09-01 14:51 阿笨猫阅读(11112) 评论(0) 推荐(2) 编辑

hadoop job解决大数据量关联时数据倾斜的一种办法

摘要： http://www.geminikwok.com/2011/04/02/hadoop-jobè§£å³å¤§æ°æ®éå³èæ—¶æ°æ®å¾æçä¸ç§åæ³/数据倾斜是指，map /reduce程序执行时，reduce节点大阅读全文

posted @ 2011-09-01 14:00 阿笨猫阅读(6261) 评论(0) 推荐(1) 编辑