随笔分类 -  Hadoop

摘要:在一个全配置的集群上,运行Hadoop意味着在网络分布的不同服务器上运行一组守护进程 (daemons),这些守护进程或运行在单个服务器上,或运行与多个服务器上,他们包括:(1) NameNode(名字节点)(2) DataNode(数据节点)(3) Secondary NameNode (次名节点... 阅读全文
posted @ 2015-02-10 23:56 CBDoctor 阅读(482) 评论(0) 推荐(0) 编辑
摘要:Hadoop是Apache Lucene创始人Doug Cutting创建的,Hadoop起源于Apache Nutch,一个开源的网络搜索引擎。最先引起注意是2003年google的一篇论文,该论文实现了谷歌分布式文件系统,也就是GFS,2004年,他们开始着手实现一个开源的实现,也就是HDFS,... 阅读全文
posted @ 2015-02-04 22:38 CBDoctor 阅读(337) 评论(0) 推荐(0) 编辑
摘要:类似于百度文档的一个学习网站【1】http://www.open-open.com/doc/search?q=分布式&ft=all&od=0&pn=10IBM的一个学习网站【2】http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 阅读全文
posted @ 2013-03-04 17:22 CBDoctor 阅读(204) 评论(0) 推荐(0) 编辑
摘要:以最简单的统计词频为例,我们只需要简单的写两个函数,就可以搭建起一个简单的服务集群(1) Map和Reduce 函数(2)MapReduceSpecification函数( 貌似有专门针对C++的函数库)【1】MapReduce研究探讨体会下面的这个连接是对谷歌《MapReduce: Simplified Data Processing on Large Clusters》论文的翻译【2】MapReduce超大集群的简单数据处理Java环境下对MapReduce的设置【3】http://blog.csdn.net/xiaotom5/article/details/8074791下面是统计词频的 阅读全文
posted @ 2013-02-25 15:21 CBDoctor 阅读(416) 评论(0) 推荐(0) 编辑