2013年8月8日

hadoop日志【5】----存储迁移之后

摘要: 集群使用的是一台实体加5台虚拟(分布在两台实体机上)后来实体机的存储不够用了,就把虚拟机转移到了网络存储上然后就悲剧了性能急剧下降是实体机网卡的瓶颈造成的原来在实体机的时候,虚拟机在进行hadoop运算时只需要走一个相互间的通信然而,在迁移到网络存储以后,则多了一个过程,既要进行相互间的通信,还多了一个网络存储的过程,编程了如下虚拟机A==》A的网络存储==》虚拟机A==》虚拟机B==》B的网络存储==》虚拟机B..........................理解hadoop计算过程的话就会明白这回增加多少的网卡负荷,结果瓶颈在了网卡上这就使得以内存作为缓存的量急剧增加,机器在监控软件上一 阅读全文

posted @ 2013-08-08 10:05 AI001 阅读(171) 评论(0) 推荐(0) 编辑

2013年7月31日

hadoop日志【4】----50G数据

摘要: 以前测试的数据量最大的才8G左右,而且还是在sqlserver中的数据量一般运行都在30分钟左右而sqlserver运行同样的逻辑更快,最多8分钟决定测试一下能体现hadoop集群优越性的数据量然后就搞了一个50G的数据表果然效果明显,sqlserver运行一次需要至少5个小时,hadoop跑完一个流程则需要2个半小时,看来30G是自己使用的硬件在两种方案上的临界点了今天就准备测试一下 阅读全文

posted @ 2013-07-31 10:05 AI001 阅读(211) 评论(0) 推荐(0) 编辑

2013年7月29日

apche mahout0.8安装与测试

摘要: 下载tar.gz的安装包地址:http://www.apache.org/dyn/closer.cgi/mahout/下载后解压在你希望安装的路径上修改bin目录下的mahout文件在文件开头添加变量HADOOP_HOME=hadoop的安装路径 HADOOP_CONF_DIR=hadoop的配置路径如果想要调用本地的数据文件,不使用hadoop则还需要添加MAHOUT_LOCAL的变量下载测试用的数据文件:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data首先确保hadoop处于运行 阅读全文

posted @ 2013-07-29 18:19 AI001 阅读(213) 评论(0) 推荐(0) 编辑

2013年7月25日

hadoop日志【3】---进度不动的reduce过程

摘要: 集群的slave由于意外原因在运行过程中突然关机过两台结果这两台存放hadoop日志的路径权限竟然全部变成root的,hadoop无法保存日志,异常不断修改了文件权限,然后重新跑任务结果跑到20%的时候又不动了根据经验,要吗是slave中的防火墙把hdfs的端口给堵了造成文件无法在slave间复制,要吗就是又是日志保存出问题,导致无法正常生成task查看了一下负责reduce的机器日志,报的全是No route to host的错误,看了一下,果然是防火墙堵端口了不知道什么时间防火墙又全部打开了关掉防火墙重试jobok了在比较早的时间还犯过一个错误,host文件里的ip写错了,结果发现redu 阅读全文

posted @ 2013-07-25 18:27 AI001 阅读(249) 评论(0) 推荐(0) 编辑

ganglia监控hadoop集群

摘要: 使用ganglia监控hadoop比较简单修改hadoop的配置文件为:conf/hadoop-metrics2.properties。依据安装的Ganglia版本找到配置文件中对应版本控制,将需要监控的项目前面注释去掉,*.servers的配置为239.2.11.71:8649,这个地址是Ganglia的广播地址,是固定的。ganglia为3.1# for Ganglia 3.1 support *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31 *.sink.ganglia.period=1. 阅读全文

posted @ 2013-07-25 11:48 AI001 阅读(263) 评论(0) 推荐(0) 编辑

ganglia简单认证

摘要: 创建用户认证文件htpasswd -c /etc/httpd/conf.d/passwords 用户名创建文件.htaccess在路径/usr/share/ganglia下内容:AuthType Basic AuthName "Restricted Files" AuthUserFile /etc/httpd/conf.d/passwords Require user 用户名修改/etc/httpd/conf/httpd.conf中的内容 Options FollowSymLinks AllowOverride None 为 Opt... 阅读全文

posted @ 2013-07-25 06:25 AI001 阅读(197) 评论(0) 推荐(0) 编辑

2013年7月24日

Apache Mahout

摘要: Apache Mahout的机器学习库的目标是建立可扩展的机器学习库可扩展到相当大的数据集。 我们的核心算法,聚类,分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。 但是,我们并不限制基于Hadoop的实现贡献:贡献单个节点或在非Hadoop集群上运行的欢迎。 核心库进行了高度优化,以获得较好的性能也非分布式算法 可扩展性,以支持您的业务情况。 Mahout的是一个商业友好的Apache软件许可下分发。 目前Mahout的主要支持四个用例:建议挖掘用户的行为,并试图找到用户可能会喜欢的项目。聚类例如文本文件,然后将它们成组主题相关的文档。 从分类学 阅读全文

posted @ 2013-07-24 18:02 AI001 阅读(222) 评论(0) 推荐(0) 编辑

ganglia安装

摘要: 本来打算采用编译的方式安装ganglia的,不过连续两天的诡异的错误自己还是放弃了错误的表现很奇怪最早采用最新的3.6的版本,依赖软件也全部采用最新的。安装过程1.安装APR:yum install apr-devel2.安装libtool:yum install libtool3.下载confuse,www.nongnu.org/confuse,configure,make,make install4.安装expat:yum install expat-devel5.安装pcre:yum install pcre-devel6.安装rrdtool:yum install rrdtool-de 阅读全文

posted @ 2013-07-24 17:55 AI001 阅读(365) 评论(0) 推荐(0) 编辑

编译出错 recompile with -fPIC

摘要: 对作者表示深刻感谢来源:http://blog.csdn.net/greencacti/article/details/9188679作者:greencacti背景:这两天在玩ganglia这个的时候,发现这个依赖于libConfuse,先按照libConfuse以后,然后再编译ganglia的时候报错,提示"recomile with fPIC".资料:上网找了一下资料,发现了下文比较接近http://deidara.blog.51cto.com/400447/154166/(下文中附)实际解决办法:按照上面方法,在libConfuse里面找不到对应的文件,继续探究con 阅读全文

posted @ 2013-07-24 10:51 AI001 阅读(1291) 评论(0) 推荐(0) 编辑

centos6.4 基本安装nagios

摘要: 非常高效率的方法:yum install nagios*但是需要外部源epel然后启动httpd服务:service httpd start然后启动nagios服务:service nagios start采用web访问:http://ip/nagios弹出权限认证窗口账户:nagiosadmin密码:nagiosadmin密码必须改cd /etc/nagios htpasswd -bc passwd nagiosadmin 新密码 阅读全文

posted @ 2013-07-24 10:27 AI001 阅读(122) 评论(0) 推荐(0) 编辑

导航