摘要: hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。 下面的语句创建了一个简单的分区表: create table partition_test 阅读全文
posted @ 2016-03-14 16:57 Mr.He多多指教 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可 阅读全文
posted @ 2016-03-14 16:47 Mr.He多多指教 阅读(15587) 评论(0) 推荐(0) 编辑
摘要: 有代码,配合代码 一起看 3.2 使用MapReduce对数据进行清洗,把原始数据清洗后,放到hdfs的/hmbbs_cleaned目录下,每天产生一个子目录。 3.3 使用hive对清洗后的数据进行统计,如何处理?如下: 3.3.1 建立一个外部分区表,脚本如下(为什么是外部的,因为我们清洗后的数据放到/hmbbs_cleaned下,2分左右,再仔细看,回头看看分区别是什么,然后... 阅读全文
posted @ 2016-03-14 00:33 Mr.He多多指教 阅读(456) 评论(0) 推荐(1) 编辑
摘要:       阅读全文
posted @ 2016-03-14 00:32 Mr.He多多指教 阅读(4050) 评论(0) 推荐(0) 编辑
摘要:       阅读全文
posted @ 2016-03-14 00:24 Mr.He多多指教 阅读(570) 评论(0) 推荐(0) 编辑
摘要:       阅读全文
posted @ 2016-03-14 00:23 Mr.He多多指教 阅读(392) 评论(0) 推荐(0) 编辑
摘要:   阅读全文
posted @ 2016-03-14 00:22 Mr.He多多指教 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop的伪分布安装 1.1 设置ip地址 执行命令 service network restart 验证: ifconfig 1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status 1.3 关闭防火墙的自动运行(在上面的那一步即使我们关... 阅读全文
posted @ 2016-03-14 00:20 Mr.He多多指教 阅读(328) 评论(0) 推荐(0) 编辑
摘要:       阅读全文
posted @ 2016-03-14 00:15 Mr.He多多指教 阅读(382) 评论(0) 推荐(0) 编辑
摘要:   package hdfs;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtil 阅读全文
posted @ 2016-03-14 00:12 Mr.He多多指教 阅读(810) 评论(1) 推荐(0) 编辑