2013年3月21日

Shell脚本学习

摘要: 今天hadoop集群在跑些大任务,所以没有资源给我用了 但是我又要查询hive上的一些数据,怎么办呢 把hive的数据拿到跳板机本地上来操作? 但是没有hive工具执行不了 还好有shell 文件的格式是这样的: URL 访客数 我现在想统计一下访客数的分布情况 例如访客数为10个的URL有多少条等 阅读全文

posted @ 2013-03-21 16:53 JueFan_C 阅读(361) 评论(0) 推荐(0) 编辑

2013年3月7日

Storm的简单介绍与安装

摘要: Storm的集群跟hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job,而在Storm上面你运行的是Topology。在Storm的集群里面有两种节点:控制节点(masternode)和工作节点(workernode)。控制节点上面运行一个后台程序:Nimbus,它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分布代码,分配工作给机器,并且监控状态。每一个工作节点上面运行一个叫做Supervisor的节点。Supervisor会监听分配给它那台机器的工作,根据需要启动/关闭工作进程。每一个工作进程执行一个Topology的一个子集; 阅读全文

posted @ 2013-03-07 15:37 JueFan_C 阅读(825) 评论(0) 推荐(0) 编辑

2013年2月27日

HDFS文件系统内的文件格式转换(zip格式转化成gzip格式)

摘要: 这篇主要介绍利用hdfs接口,使用java编程向hdfs写入数据。一、模仿hadoop fs -put 和 -copyFromLoca命令,实现本地复制文件到hdfs:View Code二、写一个与hadoop fs -getmerge相对应的一个简单程序: putmerge 。我们知道,getmerge命令是从hdfs上获取大量文件组合成一个文件放到本地文件系统中的命令。但是hadoop没有提供与这一过程相逆的命令。不幸的是我们会在处理apache日志过程中常用到这样的一个命令,比如有很多按日期分的apache日志。我们想传到hdfs中使用MepReduce来处理的话,我们只能用笨办法先本地 阅读全文

posted @ 2013-02-27 14:44 JueFan_C 阅读(2943) 评论(1) 推荐(0) 编辑

导航