2013 年 4月 2 日随笔档案 - 鍒樻爧

2013年4月2日

摘要： Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.keywhere A.userid>10and B.userid10 ) ajoin ( select .... from Bwhere dt='201200417' and us 阅读全文

posted @ 2013-04-02 13:11 鍒樻爧阅读(205) 评论(0) 推荐(0) 编辑

鍒樻爧

公告