2015 年 8月 17 日随笔档案 - chamie

2015年8月17日

摘要： 1.flume是分布式的日志收集系统，把收集来的数据传送到目的地去。2.flume里面有个核心概念，叫做agent。agent是一个java进程，运行在日志收集节点。3.agent里面包含3个核心组件：source、channel、sink。3.1 source组件是专用于收集日志的，可以处理各种类... 阅读全文

posted @ 2015-08-17 20:40 chamie 阅读(482) 评论(0) 推荐(0) 编辑

SQOOP

摘要： SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.安装SQOOP1.1先将SQOOP文件放到/usr/local/下1.... 阅读全文

posted @ 2015-08-17 19:22 chamie 阅读(1815) 评论(0) 推荐(0) 编辑

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要： z摘自：http://www.linuxidc.com/Linux/2014-03/98978.htmhadoop生态圈Pig一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有... 阅读全文

posted @ 2015-08-17 18:56 chamie 阅读(20812) 评论(1) 推荐(3) 编辑

Hive

摘要： 1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据，同时可以查询hadoop中的数据。本质上讲，hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具，可以把SQL转换为Map... 阅读全文

posted @ 2015-08-17 18:35 chamie 阅读(588) 评论(0) 推荐(0) 编辑

Pig

摘要： 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。3.Pig基本数据类型：int、long、float、double、... 阅读全文

posted @ 2015-08-17 15:52 chamie 阅读(348) 评论(0) 推荐(0) 编辑

HBase集群安装

摘要： 1.HBase的机群搭建过程(在原来的hadoop0上的HBase伪分布基础上进行搭建)1.1 集群结构，主节点(hmaster)是hadoop0，从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-... 阅读全文

posted @ 2015-08-17 13:40 chamie 阅读(187) 评论(0) 推荐(0) 编辑