2013年7月19日

MapReduce:一个重大的倒退

摘要: 本翻译属于原创,转载请注意出处,英文原版请查看:http://www.databasecolumn.com/2008/01/mapreduce-a-major-step-back.htmlhttp://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html对原作者和翻译者表示感谢这篇文章是由databasecolumn的几个数据库大牛写的,简要的介绍了MapReduce以及将其与现代数据库管理系统进行了对比,并指出了一些不足之处。本文纯属学习性翻译,从多方面来了解MapReduce,不代表完全赞同原文的观点。请读者也辩证的看。 一月 阅读全文

posted @ 2013-07-19 16:06 AI001 阅读(302) 评论(0) 推荐(0) 编辑

Hadoop-HDFS DFSClient的严重bug

摘要: 来源:http://dongyajun.iteye.com/blog/628028,对原作者表示感谢此文章的hadoop版本可能较低,涉及的问题描述仅作参考上一篇说到Shell 对自身DN造成的性能影响,本篇说一下它对DFSClient的冲击。 不知道有没有朋友像我这样病态的使用Hadoop, 我的DFSClient总是一直Running的,因为我需要它时刻为我做事,所以我不会轻意重新创建一个与NN相连的DFSClient。 闲言少述。Shell 的执行对正在put文件的客户端会产生下列异常:1. DataStreamer Exception: java.io.IOException: Una 阅读全文

posted @ 2013-07-19 16:00 AI001 阅读(1722) 评论(0) 推荐(0) 编辑

Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.

摘要: 来源:http://dongyajun.iteye.com/blog/627905对原作者表示感谢,此文章的hadoop版本可能较低,仅作参考关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, Last Contact 参数时常会超过3。LC(Last Contact)的意思是表明DataNode有多少秒的时间未向NameNode发送心跳包了. 然而默认Data 阅读全文

posted @ 2013-07-19 15:50 AI001 阅读(451) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--hadoop自动化安装脚本

摘要: 基于expect进行hadoop的自动化安装但是,无法做到完全自动化和环境适应暂且记录下来思路:将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中格式:IP%密码%服务器名......以install.sh作为总脚本调用多个分脚本,并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.py到需要安装的各个服务器上,并在本地执行,所需要的jdk7.rpm其实为javasdk7的安装包所有代码下载 阅读全文

posted @ 2013-07-19 11:28 AI001 阅读(229) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--sqoop服务调用

摘要: 一、基于thrift生成java服务端代码和C#端代码thrift接口代码:文件名称sqoopthrift.thriftnamespace java com.javabloger.gen.code service SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4:string password, 5:string tableName, 6:string hiveTaleb) string ImportDataInHive(1:string host, 2:strin... 阅读全文

posted @ 2013-07-19 10:48 AI001 阅读(554) 评论(0) 推荐(0) 编辑

apache项目概览

摘要: igtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统Avro是一个数据序列化系统,设计用于支持大 批量数据交换的应用。HttpComponents也就是以前的httpclient项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包,并且它支持 HTTP 协议最新的版本和建议Hama 是个计算框架,基于BSP (Bulk Synchronous Parallel大容量同步并行)计算技术,主要针对大规模科学的计算Apache Giraph 是一个可伸缩的分布式迭代图处理系统Apache Forrest是一个把来自各种不同的输入数据源转 阅读全文

posted @ 2013-07-19 10:13 AI001 阅读(777) 评论(0) 推荐(1) 编辑

导航