摘要: 用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的 在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。那么这些文件在什么时候被hadoop使用? ... 阅读全文
posted @ 2014-12-05 20:49 毕力格次 阅读(6123) 评论(0) 推荐(0) 编辑
摘要: 最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到... 阅读全文
posted @ 2014-09-22 00:14 毕力格次 阅读(6864) 评论(7) 推荐(0) 编辑
摘要: Configuration是hadoop中五大组件的公用类,所以放在了core下,org.apache.hadoop.conf.Configruration。这个类是作业的配置信息类,任何作用的配置信息必须通过Configuration传递,因为通过Configuration可以实现在多个mappe... 阅读全文
posted @ 2014-12-10 21:54 毕力格次 阅读(8420) 评论(0) 推荐(1) 编辑
摘要: 在用Hadoop框架处理大数据时使用最多就是HDFS--分布式文件系统,但Hadoop的文件系统不仅只有分布式文件系统,例如:hfs,HSFTP,HAR等在Hadoop中都是有集成的,用来处理存储在不同体系中的数据。事实上应该这么说,Hadoop其实是一个综合性的文件系统。 下面来看看文件系统... 阅读全文
posted @ 2014-08-05 00:01 毕力格次 阅读(3244) 评论(0) 推荐(1) 编辑