摘要: 1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类... 阅读全文
posted @ 2015-08-17 20:40 chamie 阅读(482) 评论(0) 推荐(0) 编辑
摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.安装SQOOP1.1先将SQOOP文件放到/usr/local/下1.... 阅读全文
posted @ 2015-08-17 19:22 chamie 阅读(1815) 评论(0) 推荐(0) 编辑
摘要: z摘自:http://www.linuxidc.com/Linux/2014-03/98978.htmhadoop生态圈Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有... 阅读全文
posted @ 2015-08-17 18:56 chamie 阅读(20812) 评论(1) 推荐(3) 编辑
摘要: 1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为Map... 阅读全文
posted @ 2015-08-17 18:35 chamie 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、... 阅读全文
posted @ 2015-08-17 15:52 chamie 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1.HBase的机群搭建过程(在原来的hadoop0上的HBase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-... 阅读全文
posted @ 2015-08-17 13:40 chamie 阅读(187) 评论(0) 推荐(0) 编辑