随笔分类 -  Hadoop

摘要:1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上下文不太一样而已。Mapper最终处理的键值对<key, value>,是需要送到Reducer去合并的,合并的时候,有相同key的键/值对会送到同一个Reducer那。哪个key到哪个Reduc 阅读全文
posted @ 2011-10-27 20:53 xwdreamer 阅读(17370) 评论(3) 推荐(4) 编辑
摘要:1.前言刚接触mapreduce的人肯定为碰到这样的问题,就是我们在程序中如下类似的命令System.out.println(year+" "+airTemperature);//无效,控制台没有输出。但是console控制台不给我们输出相应的结果,这对于很多通过System.out来调试的人来说,会是一个很头疼的事情,我也对这个很头疼。昨天在看《hadoop权威指南第二版》的第五章的时候,书中有介绍通过web界面来浏览hadoop的作业信息,发现在web界面中能看到许多作业的相关信息。并且知道mapreduce的作业信息都写在了用户日志中,存放在目录hadoop_home 阅读全文
posted @ 2011-10-23 09:44 xwdreamer 阅读(4842) 评论(0) 推荐(0) 编辑
摘要:参考文献:http://www.hadooper.cn/dct/page/657771排序实例排序实例仅仅用 map/reduce框架来把输入目录排序放到输出目录。输入和输出必须是顺序文件,键和值是BytesWritable.mapper是预先定义的IdentityMapper,reducer 是预先定义的 IdentityReducer, 两个都是把输入直接的输出。要运行这个例 子:bin/hadoop jar hadoop-*-examples.jar sort [-m <#maps>] [-r <#reduces>] <in-dir> <out- 阅读全文
posted @ 2011-10-17 14:04 xwdreamer 阅读(6251) 评论(0) 推荐(0) 编辑
摘要:参考文献:http://www.hadooper.cn/dct/page/657781.概述RandomWriter(随机写)例子利用 Map/Reduce把 数据随机的写到dfs中。每个map输入单个文件名,然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出,所以reduce没有执行。产生的数据是可以配置的。配置变量如下名字默认值描述test.randomwriter.maps_per_host10每个节点运行的map任务数test.randomwrite.bytes_per_map1073741824每个map任务产生的数据量test.randomwrit 阅读全文
posted @ 2011-10-17 13:44 xwdreamer 阅读(1234) 评论(1) 推荐(0) 编辑
摘要:将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。可以通过以下命令来手动离开安全模式:bin/hadoop dfsadmin -safemode le 阅读全文
posted @ 2011-10-12 13:30 xwdreamer 阅读(947) 评论(0) 推荐(0) 编辑
摘要:参考文献http://hi.baidu.com/xiboliya/blog/item/015ead864e041b2a67096eda.html正文Ubuntu-10.10系统安装过程中,系统会提示建立一个默认用户,比如用户名为:xuwei。这个默认用户具有一定的管理功能,即可以通过sudo命令执行root权限的操作。由于Ubuntu系统不允许通过root用户登录系统,所以这个默认用户即是实际意义上的管理员。现在的问题是:如果新建一个用户:hadoop,然后要将此用户设置为与xuwei相同的管理员用户。此问题有2种方式实现:界面方式。用xuwei登录系统,通过选择菜单:系统->系统管理- 阅读全文
posted @ 2011-10-09 10:20 xwdreamer 阅读(14562) 评论(1) 推荐(0) 编辑
摘要:以前都是在单机模式下搭建hadoop进行运作,今天试着在两台机器上搭建,就出现了一堆问题。现在汇总注意事项1.Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户我第一台机器上使用都用户名是hadoop,第二台使用都就是xuwei了,这样导致了很多问题。如果早知道必须使用相同都用户名,当时就不这么麻烦了。2.格式化HDSF在启动hadoop服务./start-all.sh 之前,我们必须进行HDSF,使用如下命令./hadoop namenode -format 如果不进行HDSF格式化的话,可能会出现没有namenode或者datanode的错误。3.. 阅读全文
posted @ 2011-10-08 15:16 xwdreamer 阅读(1228) 评论(0) 推荐(0) 编辑
摘要:一台电脑只有一个计算机名,但是可以有多个用户。当我们打开终端terminal的时候,会看到第一行为:hadoop@xuwei-laptop:~$ 这就表示当前用户名为:hadoop,计算机名为xuwei-laptop。那么我们如何修改计算机名呢?只需要输入如下命令:sudo gedit /etc/hostname 将打开的文件中的xuwei-laptop改成我们需要的计算机名即可。 阅读全文
posted @ 2011-10-08 09:10 xwdreamer 阅读(5518) 评论(0) 推荐(0) 编辑
摘要:1.Hadoop: The Definitive Guide(Hadoop权威指南) 这本书很全,Hadoop中的圣经级教材,不过看起来挺累。 内容简介 Discover how Apache Hadoop can unleash the power of your data. This comprehensive resource shows you how to build and maintain reliable, scalable, distributed systems with the Hadoop framework -- an open source implement... 阅读全文
posted @ 2011-06-10 13:08 xwdreamer 阅读(2998) 评论(0) 推荐(1) 编辑
摘要:1. 前言 通过基于MapReduce云计算平台的海量数据处理实验,我们了解了Hadoop的基本架构,已经如何编写MapReduce程序,本实验中我主要使用到的两个程序分别是WordCount(词频统计)和InvertedIndex(反向索引)。在将这两个程序之前,我会介绍我对Hadoop的理解。 2. Hadoop简介及特性 2.1. Hadoop分布式文件系统(HDFS) Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的... 阅读全文
posted @ 2011-06-10 12:56 xwdreamer 阅读(2526) 评论(0) 推荐(0) 编辑
摘要:0.参考资料:代码参考1:http://www.pudn.com/downloads212/sourcecode/unix_linux/detail999273.html理论参考2:http://zhangyu8374.javaeye.com/blog/86307,http://nything.javaeye.com/blog/4117871.分析假如有file0,file1,file2三个文件,这些文件中都保存了一些文本内容,比如在file0中只有一个句子,内容为"we are happy"。一般的索引都是记录在这个文件中没有一个单词的索引号。比如file0的索引可以是( 阅读全文
posted @ 2011-01-07 19:26 xwdreamer 阅读(2177) 评论(0) 推荐(0) 编辑
摘要:0.参考资料:http://radarradar.javaeye.com/blog/289257http://blog.chinaunix.net/u3/99156/showart_2157576.html1.思路:1.1过滤MapReduce的第一操作就是要读取文件,不过我们经常会发现一个文本中会有一些我们不需要的字符,比如特殊字符。一般需要进行词频统计的都是单词或者是数字,所以那些非0-9,a-z,A-Z的字符基本都是垃圾字符,我们需要进行统计,这是我们可以通过一个正则表达式来进行过滤,当每次多去一行文字的时候,我们将所有非0-9,a-z,A-Z的垃圾字符都替换为空格,这样就清楚了垃圾字符 阅读全文
posted @ 2011-01-07 15:21 xwdreamer 阅读(6006) 评论(1) 推荐(0) 编辑
摘要:如果安装的是hadoop-0.20.2,那么eclipse-plugin的具体位置位在:/home/hadoop/hadoop-0.20.2/contrib/eclipse-plugin下面。如果安装的是hadoop-0.21.0,那么eclipse-plugin的具体位置位在:/home/hadoop/hadoop-0.21.0/mapred/contrib/eclipse/hadoop-0.21.0-eclipse-plugin.jar下面将hadoop-0.21.0-eclipse-plugin.jar这个插件保存到eclipse目录下的pluging中,eclipse就能够自动识别。P 阅读全文
posted @ 2011-01-06 15:46 xwdreamer 阅读(2243) 评论(1) 推荐(0) 编辑
摘要:部分参考:http://www.javaeye.com/topic/6069621.图解MapReduceMapReduce整体流程图并行读取文本中的内容,然后进行MapReduce操作Map过程:并行读取三行,对读取的单词进行map操作,每个词都以<key,value>形式生成reduce操作是对map的结果进行排序,合并,最后得出词频。2.简单过程:Input:Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello HadoopMap:<Hello,1><World,1><Bye,1 阅读全文
posted @ 2011-01-04 20:30 xwdreamer 阅读(32692) 评论(3) 推荐(3) 编辑

点击右上角即可分享
微信分享提示