摘要: 环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:任意数量、格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件中出现了几次,组成倒排索引,格式如下 Ant FaultyWordCount.java : 1 , 阅读全文
posted @ 2016-04-16 21:35 SnailRen 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境,gnuplot, 数据:http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 方案目标: 提供的blog数据是简单的文件请求访问数据 205.189.154.54 - - [ 阅读全文
posted @ 2016-04-16 10:55 SnailRen 阅读(342) 评论(0) 推荐(0) 编辑