咖啡猫

导航

2015年3月17日 #

hive

摘要: 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce... 阅读全文

posted @ 2015-03-17 19:02 咖啡猫1292 阅读(180) 评论(0) 推荐(0) 编辑

hbase

摘要: 1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态... 阅读全文

posted @ 2015-03-17 19:01 咖啡猫1292 阅读(184) 评论(0) 推荐(0) 编辑

pig

摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、... 阅读全文

posted @ 2015-03-17 18:57 咖啡猫1292 阅读(377) 评论(0) 推荐(0) 编辑