原文:http://www.cnblogs.com/zhangminghui/p/4113160.html 引言 MySQL本身提供了内置函数,这些函数的存在给我们日常的开发和数据操作带来了很大的便利,比如我前面提到过的聚合函数SUM()、AVG()以及日期时间函数等等,可是我们总会出现其他的需求: Read More
一、join优化 做join之前对数据进行预处理,减少参加join的数据量,把数据量少的表放入内存中,制作map端的join 应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边 Read More
由facebook 开源用以帮用户解决海量数据etl,构建于hadoop的 数据仓库。 使用hql作为查询接口 使用hdfs作为底层存储 使用mr作为执行层 1、为什么使用hive? 1)在大数据的挑战下,传统的数据库不堪负重 2)使用mr编程繁琐 3)人员成本考虑 2、hive和hbase的区别 Read More