上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 30 下一页
摘要:   阅读全文
posted @ 2016-03-15 20:27 Mr.He多多指教 阅读(603) 评论(0) 推荐(0) 编辑
摘要: http://blog.itpub.net/22778222/viewspace-1119892/ 官方文档翻译 http://blog.csdn.net/hguisu/article/details/7256833 http://www.cnblogs.com/linjiqin/archive/2 阅读全文
posted @ 2016-03-15 17:12 Mr.He多多指教 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 链接:http://pan.baidu.com/s/1pJvBm5P 密码:qq3u 阅读全文
posted @ 2016-03-15 14:20 Mr.He多多指教 阅读(194) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/tangtianfly/archive/2012/03/13/2393449.html 一、 创建表 在官方的wiki里,example是这样的: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [( 阅读全文
posted @ 2016-03-15 10:54 Mr.He多多指教 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 可以通过多种方式将数据导入hive表 用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表。 例如: 编辑文件test.txt $ cat test.txt  1       hello 2       world 阅读全文
posted @ 2016-03-15 10:34 Mr.He多多指教 阅读(3515) 评论(0) 推荐(0) 编辑
摘要: Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多 阅读全文
posted @ 2016-03-15 00:29 Mr.He多多指教 阅读(535) 评论(0) 推荐(0) 编辑
摘要: hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。 下面的语句创建了一个简单的分区表: create table partition_test 阅读全文
posted @ 2016-03-14 16:57 Mr.He多多指教 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可 阅读全文
posted @ 2016-03-14 16:47 Mr.He多多指教 阅读(15587) 评论(0) 推荐(0) 编辑
摘要: 有代码,配合代码 一起看 3.2 使用MapReduce对数据进行清洗,把原始数据清洗后,放到hdfs的/hmbbs_cleaned目录下,每天产生一个子目录。 3.3 使用hive对清洗后的数据进行统计,如何处理?如下: 3.3.1 建立一个外部分区表,脚本如下(为什么是外部的,因为我们清洗后的数据放到/hmbbs_cleaned下,2分左右,再仔细看,回头看看分区别是什么,然后... 阅读全文
posted @ 2016-03-14 00:33 Mr.He多多指教 阅读(456) 评论(0) 推荐(1) 编辑
摘要:       阅读全文
posted @ 2016-03-14 00:32 Mr.He多多指教 阅读(4050) 评论(0) 推荐(0) 编辑
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 30 下一页