Cheetah:A High Performance, Custom Data Warehouse on Top of MapReduce
特点:
类似hive,存储unstructured data.
Virtual View就是一些fact table,存储所有信息,维信息体现在row的属性上
schema版本变化体现在fact table中,每一行包含schema version ID,元数据记录哪些列可用不可用
元数据信息存储在每个节点,由主节点同步。
表数据存储方式:1。text(in CSV) 2.serialized java objects 3.row-based binary array 4. columnar binary array.
贡献:fact table 自己设计的columnar 存储,提供压缩,分日期和维存储,为查询提供关键字
对mapreduce 查询job的优化:
a reduce numbwe 设置 启发式法
b 采用shared scaner 一次性处理多个相同表处理的查询
c 小数据直接从HDF本地读取,不mapreduce scan