2013 年 7月随笔档案 - AI001

hadoop日志【4】----50G数据

摘要：以前测试的数据量最大的才8G左右，而且还是在sqlserver中的数据量一般运行都在30分钟左右而sqlserver运行同样的逻辑更快，最多8分钟决定测试一下能体现hadoop集群优越性的数据量然后就搞了一个50G的数据表果然效果明显，sqlserver运行一次需要至少5个小时，hadoop跑完一个流程则需要2个半小时，看来30G是自己使用的硬件在两种方案上的临界点了今天就准备测试一下阅读全文

posted @ 2013-07-31 10:05 AI001 阅读(212) 评论(0) 推荐(0) 编辑

apche mahout0.8安装与测试

摘要：下载tar.gz的安装包地址：http://www.apache.org/dyn/closer.cgi/mahout/下载后解压在你希望安装的路径上修改bin目录下的mahout文件在文件开头添加变量HADOOP_HOME=hadoop的安装路径 HADOOP_CONF_DIR=hadoop的配置路径如果想要调用本地的数据文件，不使用hadoop则还需要添加MAHOUT_LOCAL的变量下载测试用的数据文件：http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data首先确保hadoop处于运行阅读全文

posted @ 2013-07-29 18:19 AI001 阅读(214) 评论(0) 推荐(0) 编辑

hadoop日志【3】---进度不动的reduce过程

摘要：集群的slave由于意外原因在运行过程中突然关机过两台结果这两台存放hadoop日志的路径权限竟然全部变成root的，hadoop无法保存日志，异常不断修改了文件权限，然后重新跑任务结果跑到20%的时候又不动了根据经验，要吗是slave中的防火墙把hdfs的端口给堵了造成文件无法在slave间复制，要吗就是又是日志保存出问题，导致无法正常生成task查看了一下负责reduce的机器日志，报的全是No route to host的错误，看了一下，果然是防火墙堵端口了不知道什么时间防火墙又全部打开了关掉防火墙重试jobok了在比较早的时间还犯过一个错误，host文件里的ip写错了，结果发现redu 阅读全文

posted @ 2013-07-25 18:27 AI001 阅读(249) 评论(0) 推荐(0) 编辑

ganglia监控hadoop集群

摘要：使用ganglia监控hadoop比较简单修改hadoop的配置文件为：conf/hadoop-metrics2.properties。依据安装的Ganglia版本找到配置文件中对应版本控制，将需要监控的项目前面注释去掉，*.servers的配置为239.2.11.71：8649,这个地址是Ganglia的广播地址，是固定的。ganglia为3.1# for Ganglia 3.1 support *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31 *.sink.ganglia.period=1. 阅读全文

posted @ 2013-07-25 11:48 AI001 阅读(264) 评论(0) 推荐(0) 编辑

ganglia简单认证

摘要：创建用户认证文件htpasswd -c /etc/httpd/conf.d/passwords 用户名创建文件.htaccess在路径/usr/share/ganglia下内容：AuthType Basic AuthName "Restricted Files" AuthUserFile /etc/httpd/conf.d/passwords Require user 用户名修改/etc/httpd/conf/httpd.conf中的内容 Options FollowSymLinks AllowOverride None 为 Opt... 阅读全文

posted @ 2013-07-25 06:25 AI001 阅读(202) 评论(0) 推荐(0) 编辑

Apache Mahout

摘要：Apache Mahout的机器学习库的目标是建立可扩展的机器学习库可扩展到相当大的数据集。我们的核心算法，聚类，分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。但是，我们并不限制基于Hadoop的实现贡献：贡献单个节点或在非Hadoop集群上运行的欢迎。核心库进行了高度优化，以获得较好的性能也非分布式算法可扩展性，以支持您的业务情况。 Mahout的是一个商业友好的Apache软件许可下分发。目前Mahout的主要支持四个用例：建议挖掘用户的行为，并试图找到用户可能会喜欢的项目。聚类例如文本文件，然后将它们成组主题相关的文档。从分类学阅读全文

posted @ 2013-07-24 18:02 AI001 阅读(226) 评论(0) 推荐(0) 编辑

ganglia安装

摘要：本来打算采用编译的方式安装ganglia的，不过连续两天的诡异的错误自己还是放弃了错误的表现很奇怪最早采用最新的3.6的版本，依赖软件也全部采用最新的。安装过程1.安装APR:yum install apr-devel2.安装libtool:yum install libtool3.下载confuse,www.nongnu.org/confuse,configure，make，make install4.安装expat:yum install expat-devel5.安装pcre:yum install pcre-devel6.安装rrdtool：yum install rrdtool-de 阅读全文

posted @ 2013-07-24 17:55 AI001 阅读(366) 评论(0) 推荐(0) 编辑

编译出错 recompile with -fPIC

摘要：对作者表示深刻感谢来源：http://blog.csdn.net/greencacti/article/details/9188679作者：greencacti背景：这两天在玩ganglia这个的时候，发现这个依赖于libConfuse，先按照libConfuse以后，然后再编译ganglia的时候报错，提示"recomile with fPIC".资料：上网找了一下资料，发现了下文比较接近http://deidara.blog.51cto.com/400447/154166/（下文中附）实际解决办法：按照上面方法，在libConfuse里面找不到对应的文件，继续探究con 阅读全文

posted @ 2013-07-24 10:51 AI001 阅读(1299) 评论(0) 推荐(0) 编辑

centos6.4 基本安装nagios

摘要：非常高效率的方法:yum install nagios*但是需要外部源epel然后启动httpd服务:service httpd start然后启动nagios服务:service nagios start采用web访问:http://ip/nagios弹出权限认证窗口账户：nagiosadmin密码：nagiosadmin密码必须改cd /etc/nagios htpasswd -bc passwd nagiosadmin 新密码阅读全文

posted @ 2013-07-24 10:27 AI001 阅读(123) 评论(0) 推荐(0) 编辑

hadoop日志【2】

摘要：采用了nohup以后，今天再看hive和sqoop的服务就没有问题了阅读全文

posted @ 2013-07-23 09:57 AI001 阅读(111) 评论(0) 推荐(0) 编辑

hadoop日志【1】--hive服务和sqoop服务运行

摘要：周五下班时将hive服务和sqoop服务打开了想看看周一是否还运行结果今天来到一看果然不运行了，看来过了会话时间进程就同时被杀掉了，采用普通的方式果然还是和会话绑定在一起了研究了一下会话的问题，采用daemon进程即可命令如下：nohup bin/hive --service hiveserver &nohup java -jar sqoop.jar & 阅读全文

posted @ 2013-07-22 10:32 AI001 阅读(198) 评论(0) 推荐(0) 编辑

linux会话浅析

摘要：来源：http://hi.baidu.com/_kouu/item/542f65d07aa2fb1e21e250d9对原作者表示感谢说起会话，我们经常登录到linux系统，执行各种各样的程序，这都牵涉到会话。但是，一般情况下我们又很少会去关注到会话的存在，很少会去了解它的来龙去脉。本文就对linux会话相关的信息做一些整理，看看隐藏在我们日常使用的背后，都有些什么样的逻辑。【会话的维系】维系一个会话，最常见的有两种方式：一是基于某种凭证，比如web网站的登录会话，在登录验证之后，服务器就会返回一个session id作为凭证。用户之后的请求总是会带上这个id，而服务器通过这个id也就能知道用户阅读全文

posted @ 2013-07-22 09:42 AI001 阅读(344) 评论(0) 推荐(0) 编辑

MapReduce：一个重大的倒退

摘要：本翻译属于原创，转载请注意出处，英文原版请查看:http://www.databasecolumn.com/2008/01/mapreduce-a-major-step-back.htmlhttp://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html对原作者和翻译者表示感谢这篇文章是由databasecolumn的几个数据库大牛写的，简要的介绍了MapReduce以及将其与现代数据库管理系统进行了对比，并指出了一些不足之处。本文纯属学习性翻译，从多方面来了解MapReduce，不代表完全赞同原文的观点。请读者也辩证的看。一月阅读全文

posted @ 2013-07-19 16:06 AI001 阅读(306) 评论(0) 推荐(0) 编辑

Hadoop-HDFS DFSClient的严重bug

摘要：来源：http://dongyajun.iteye.com/blog/628028，对原作者表示感谢此文章的hadoop版本可能较低，涉及的问题描述仅作参考上一篇说到Shell 对自身DN造成的性能影响，本篇说一下它对DFSClient的冲击。不知道有没有朋友像我这样病态的使用Hadoop，我的DFSClient总是一直Running的，因为我需要它时刻为我做事，所以我不会轻意重新创建一个与NN相连的DFSClient。闲言少述。Shell 的执行对正在put文件的客户端会产生下列异常：1. DataStreamer Exception: java.io.IOException: Una 阅读全文

posted @ 2013-07-19 16:00 AI001 阅读(1736) 评论(0) 推荐(0) 编辑

Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.

摘要：来源：http://dongyajun.iteye.com/blog/627905对原作者表示感谢，此文章的hadoop版本可能较低，仅作参考关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, Last Contact 参数时常会超过3。LC（Last Contact）的意思是表明DataNode有多少秒的时间未向NameNode发送心跳包了. 然而默认Data 阅读全文

posted @ 2013-07-19 15:50 AI001 阅读(455) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--hadoop自动化安装脚本

摘要：基于expect进行hadoop的自动化安装但是，无法做到完全自动化和环境适应暂且记录下来思路：将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中格式：IP%密码%服务器名......以install.sh作为总脚本调用多个分脚本，并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.py到需要安装的各个服务器上，并在本地执行,所需要的jdk7.rpm其实为javasdk7的安装包所有代码下载阅读全文

posted @ 2013-07-19 11:28 AI001 阅读(232) 评论(0) 推荐(0) 编辑

hadoop集群安装与配置--sqoop服务调用

摘要：一、基于thrift生成java服务端代码和C#端代码thrift接口代码：文件名称sqoopthrift.thriftnamespace java com.javabloger.gen.code service SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4:string password, 5:string tableName, 6:string hiveTaleb) string ImportDataInHive(1:string host, 2:strin... 阅读全文

posted @ 2013-07-19 10:48 AI001 阅读(558) 评论(0) 推荐(0) 编辑

apache项目概览

摘要：igtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。HttpComponents也就是以前的httpclient项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包，并且它支持 HTTP 协议最新的版本和建议Hama 是个计算框架，基于BSP (Bulk Synchronous Parallel大容量同步并行)计算技术，主要针对大规模科学的计算Apache Giraph 是一个可伸缩的分布式迭代图处理系统Apache Forrest是一个把来自各种不同的输入数据源转阅读全文

posted @ 2013-07-19 10:13 AI001 阅读(793) 评论(0) 推荐(1) 编辑

软件行业转折期

摘要：开源项目的广泛铺开标志着软件行业进入了一个转折期，从业人员将进一步职业细化，同时也更进一步的两极分化。专家化人员的需求量将增大，而且专业化程度要求更高，而专业化程度不高的普适性开发人员待遇将进一步的下降，而且门槛也进一步降低，真正成为一种“民工”职业。这也为软件开发从业人员提出新的要求，需要将自己的知识和技能领域进一步细化、专业化，提高自身的技术的精度。或者广泛积累知识，向技术管理转型。而从业人员的培养如果延续以前的模式对软件工程师将是一种灾难。普通的基于开发语言和框架的培养方式只会生产低等的“IT民工”，正确的方式则需要从更专业化的技能作为主要培养内容，而语言和框架知识的训练则作为基础技能去阅读全文

posted @ 2013-07-06 20:29 AI001 阅读(140) 评论(0) 推荐(0) 编辑

AI001

07 2013 档案