摘要:
由于Hadoop和以后用到的Git分布式版本控制都用到了SSH,故这里把无密码登录的SSH的配置过程记录下:1. 首先切换到想要使用ssh的用户下,不一定是root用户2.ssh-keygen –t rsa –P ‘’ (这个用来产生id_rsa.pub和id_rsa,还有authorized_keys)3. 将自己的id_rsa.pub文件拷贝到想无密码登录自己这台机器的机器上(把自己的pubkey给别人,别人就可以登录自己了)。如果那个机器跟自己可以连同,则可以使用scp进行拷贝。 scp id_rsa.pub user@X.X.X.X:~/(将id_rsa.pub拷贝到指定ip地址的us 阅读全文
摘要:
倒排索引被广泛应用于全文搜索殷勤,像Google 百度 雅虎这样的搜索殷勤都在使用倒排索引。具体倒排索引的介绍,参照 维基百科。这个实例要做的是将几个文件中的内容进行倒排索引,文件的内容如下:我们要实现的结果是:这样就简单做了一个倒排索引操作,通过单词可以查询到该单词出现在了哪个文件中,出现了几次。分三个步骤:1. 将file1、file2和file3文件内容按照 <word:filename,1> (即<单词:文件名,1>,这是为了将文件名信息添加到map中以便后面的reduce使用)2. 将<word:filename,1>转化为<word,fil 阅读全文
摘要:
Hadoop-1.0.3版本的WordCount Example代码中用到了新版本的Map Reduce抽象类,而不是去实现接口。它的源代码如下:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apac 阅读全文