12 2012 档案
摘要:本人在测试的时候发现需要eclipse的版本为Version: 3.3.2和hadoop 0.20.2测试通过,其他eclipse版本测试通不过。原文:http://blog.csdn.net/furiously/article/details/6430525此文章的前提是:知道hadoop是什么,知道什么是分布式系统,了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分: 1、hadoop 在 redhat linux下的安装过程 网上有很多讲授在windows下通过Cygwin安装hadoop的,笔者认为h..
阅读全文
摘要:数据倾斜总结转载:http://www.alidata.org/archives/2109转在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料
阅读全文
摘要:Map/Reduce hadoop 细节原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html分布式计算(Map/Reduce)分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。 从计算的角度上看,Map/Reduce框架接受各种格式的键值对文件作为输入
阅读全文
摘要:点击虚拟机菜单中的【VM】选项选择 setting...进入界面接下去选择添加的硬盘大小点击next最后点击finish,完成添加。注意:必须重启linux系统,才能看到添加的硬盘,如果是第二颗硬盘就为sdb重启系统后运行命令:fdisk -l 可以看到类似以下的界面需要进行磁盘分区、格式化和挂载才能使用
阅读全文