摘要: Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.keywhere A.userid>10and B.userid10 ) ajoin ( select .... from Bwhere dt='201200417' and us 阅读全文
posted @ 2013-04-02 13:11 鍒樻爧 阅读(203) 评论(0) 推荐(0) 编辑