AI001

hadoop日志【2】

摘要：采用了nohup以后，今天再看hive和sqoop的服务就没有问题了阅读全文

posted @ 2013-07-23 09:57 AI001 阅读(107) 评论(0) 推荐(0) 编辑

hadoop日志【1】--hive服务和sqoop服务运行

摘要：周五下班时将hive服务和sqoop服务打开了想看看周一是否还运行结果今天来到一看果然不运行了，看来过了会话时间进程就同时被杀掉了，采用普通的方式果然还是和会话绑定在一起了研究了一下会话的问题，采用daemon进程即可命令如下：nohup bin/hive --service hiveserver &nohup java -jar sqoop.jar & 阅读全文

posted @ 2013-07-22 10:32 AI001 阅读(198) 评论(0) 推荐(0) 编辑

摘要：来源：http://hi.baidu.com/_kouu/item/542f65d07aa2fb1e21e250d9对原作者表示感谢说起会话，我们经常登录到linux系统，执行各种各样的程序，这都牵涉到会话。但是，一般情况下我们又很少会去关注到会话的存在，很少会去了解它的来龙去脉。本文就对linux会话相关的信息做一些整理，看看隐藏在我们日常使用的背后，都有些什么样的逻辑。【会话的维系】维系一个会话，最常见的有两种方式：一是基于某种凭证，比如web网站的登录会话，在登录验证之后，服务器就会返回一个session id作为凭证。用户之后的请求总是会带上这个id，而服务器通过这个id也就能知道用户阅读全文

posted @ 2013-07-22 09:42 AI001 阅读(341) 评论(0) 推荐(0) 编辑

MapReduce：一个重大的倒退

摘要：本翻译属于原创，转载请注意出处，英文原版请查看:http://www.databasecolumn.com/2008/01/mapreduce-a-major-step-back.htmlhttp://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html对原作者和翻译者表示感谢这篇文章是由databasecolumn的几个数据库大牛写的，简要的介绍了MapReduce以及将其与现代数据库管理系统进行了对比，并指出了一些不足之处。本文纯属学习性翻译，从多方面来了解MapReduce，不代表完全赞同原文的观点。请读者也辩证的看。一月阅读全文

posted @ 2013-07-19 16:06 AI001 阅读(303) 评论(0) 推荐(0) 编辑

Hadoop-HDFS DFSClient的严重bug

摘要：来源：http://dongyajun.iteye.com/blog/628028，对原作者表示感谢此文章的hadoop版本可能较低，涉及的问题描述仅作参考上一篇说到Shell 对自身DN造成的性能影响，本篇说一下它对DFSClient的冲击。不知道有没有朋友像我这样病态的使用Hadoop，我的DFSClient总是一直Running的，因为我需要它时刻为我做事，所以我不会轻意重新创建一个与NN相连的DFSClient。闲言少述。Shell 的执行对正在put文件的客户端会产生下列异常：1. DataStreamer Exception: java.io.IOException: Una 阅读全文

posted @ 2013-07-19 16:00 AI001 阅读(1732) 评论(0) 推荐(0) 编辑

Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.

摘要：来源：http://dongyajun.iteye.com/blog/627905对原作者表示感谢，此文章的hadoop版本可能较低，仅作参考关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, Last Contact 参数时常会超过3。LC（Last Contact）的意思是表明DataNode有多少秒的时间未向NameNode发送心跳包了. 然而默认Data 阅读全文

posted @ 2013-07-19 15:50 AI001 阅读(453) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--hadoop自动化安装脚本

摘要：基于expect进行hadoop的自动化安装但是，无法做到完全自动化和环境适应暂且记录下来思路：将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中格式：IP%密码%服务器名......以install.sh作为总脚本调用多个分脚本，并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.py到需要安装的各个服务器上，并在本地执行,所需要的jdk7.rpm其实为javasdk7的安装包所有代码下载阅读全文

posted @ 2013-07-19 11:28 AI001 阅读(230) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--sqoop服务调用

摘要：一、基于thrift生成java服务端代码和C#端代码thrift接口代码：文件名称sqoopthrift.thriftnamespace java com.javabloger.gen.code service SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4:string password, 5:string tableName, 6:string hiveTaleb) string ImportDataInHive(1:string host, 2:strin... 阅读全文

posted @ 2013-07-19 10:48 AI001 阅读(558) 评论(0) 推荐(0) 编辑

apache项目概览

摘要： igtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。HttpComponents也就是以前的httpclient项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包，并且它支持 HTTP 协议最新的版本和建议Hama 是个计算框架，基于BSP (Bulk Synchronous Parallel大容量同步并行)计算技术，主要针对大规模科学的计算Apache Giraph 是一个可伸缩的分布式迭代图处理系统Apache Forrest是一个把来自各种不同的输入数据源转阅读全文

posted @ 2013-07-19 10:13 AI001 阅读(788) 评论(0) 推荐(1) 编辑

软件行业转折期

摘要：开源项目的广泛铺开标志着软件行业进入了一个转折期，从业人员将进一步职业细化，同时也更进一步的两极分化。专家化人员的需求量将增大，而且专业化程度要求更高，而专业化程度不高的普适性开发人员待遇将进一步的下降，而且门槛也进一步降低，真正成为一种“民工”职业。这也为软件开发从业人员提出新的要求，需要将自己的知识和技能领域进一步细化、专业化，提高自身的技术的精度。或者广泛积累知识，向技术管理转型。而从业人员的培养如果延续以前的模式对软件工程师将是一种灾难。普通的基于开发语言和框架的培养方式只会生产低等的“IT民工”，正确的方式则需要从更专业化的技能作为主要培养内容，而语言和框架知识的训练则作为基础技能去阅读全文

posted @ 2013-07-06 20:29 AI001 阅读(139) 评论(0) 推荐(0) 编辑