Cheetah:A High Performance, Custom Data Warehouse on Top of MapReduce

特点:

类似hive,存储unstructured data.

Virtual View就是一些fact table,存储所有信息,维信息体现在row的属性上

schema版本变化体现在fact table中,每一行包含schema version ID,元数据记录哪些列可用不可用

元数据信息存储在每个节点,由主节点同步。

表数据存储方式:1。text(in CSV)  2.serialized java objects 3.row-based binary array 4. columnar binary array.

贡献:fact table 自己设计的columnar 存储,提供压缩,分日期和维存储,为查询提供关键字

对mapreduce 查询job的优化:

 a reduce numbwe 设置 启发式法

 b 采用shared scaner 一次性处理多个相同表处理的查询

 c 小数据直接从HDF本地读取,不mapreduce scan

 

 

posted @ 2013-03-11 04:09  homegis  Views(300)  Comments(0Edit  收藏  举报