2012 年 12月随笔档案 - DW祥哥

【转载】redHat linux下安装hadoop 0.20.2, 并在windows下远程连接此hadoop,开发调试

摘要：本人在测试的时候发现需要eclipse的版本为Version: 3.3.2和hadoop 0.20.2测试通过，其他eclipse版本测试通不过。原文：http://blog.csdn.net/furiously/article/details/6430525此文章的前提是：知道hadoop是什么，知道什么是分布式系统，了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分： 1、hadoop 在 redhat linux下的安装过程网上有很多讲授在windows下通过Cygwin安装hadoop的，笔者认为h.. 阅读全文

posted @ 2012-12-18 15:53 DW祥哥阅读(271) 评论(0) 推荐(0) 编辑

【转载】数据倾斜总结

摘要：数据倾斜总结转载：http://www.alidata.org/archives/2109转在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料阅读全文

posted @ 2012-12-18 15:41 DW祥哥阅读(196) 评论(0) 推荐(0) 编辑

【转载】Map/Reduce hadoop 细节

摘要：Map/Reduce hadoop 细节原文：http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html分布式计算（Map/Reduce）分布式式计算，同样是一个宽泛的概念，在这里，它狭义的指代，按Google Map/Reduce框架所设计的分布式框架。在Hadoop中，分布式文件系统，很大程度上，是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统，类似的定义推广到分布式计算上，我们可以将其视为增加了分布式支持的计算函数。从计算的角度上看，Map/Reduce框架接受各种格式的键值对文件作为输入阅读全文

posted @ 2012-12-18 15:39 DW祥哥阅读(295) 评论(0) 推荐(0) 编辑

suse linux 添加一个虚拟硬盘来增加磁盘空间

摘要：点击虚拟机菜单中的【VM】选项选择 setting...进入界面接下去选择添加的硬盘大小点击next最后点击finish,完成添加。注意：必须重启linux系统，才能看到添加的硬盘，如果是第二颗硬盘就为sdb重启系统后运行命令:fdisk -l 可以看到类似以下的界面需要进行磁盘分区、格式化和挂载才能使用阅读全文

posted @ 2012-12-18 15:32 DW祥哥阅读(556) 评论(0) 推荐(0) 编辑

12 2012 档案

公告