摘要: 本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个:不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields ter... 阅读全文
posted @ 2013-08-14 16:48 夏至冬末 阅读(1723) 评论(0) 推荐(1) 编辑
摘要: 所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正!hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:... 阅读全文
posted @ 2013-08-14 16:43 夏至冬末 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采... 阅读全文
posted @ 2013-08-14 15:48 夏至冬末 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 必须在表定义时创建partitiona、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。以dt为文件夹区分b、 双分... 阅读全文
posted @ 2013-08-14 15:34 夏至冬末 阅读(196) 评论(0) 推荐(0) 编辑