摘要: Hive分区表 1. 说明 分区表的一个分区对应hdfs上的一个目录 分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区分 多级分区表,即创建的时候指定 PARTITIONED BY (event_month string,loc string),根据顺序,级联创建 event_mont 阅读全文
posted @ 2018-07-05 17:20 雪山过客 阅读(1941) 评论(0) 推荐(0) 编辑
摘要: Hive-SQL练习 通过hive统计一篇文章中WordCount 1. hive创建内部表wc 2. 向wc表中导入hdfs文章的内容 3. 统计词频 4. 知识点  阅读全文
posted @ 2018-07-05 16:30 雪山过客 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: MapReduce知识整理 MapReduce简介 MapReduce是一个用于处理海量数据的分布式计算框架,解决了(数据分布式存储,作业调度,容错,机器间通信等复杂问题) MapReduce计算框架和执行流程 运行过程文字描述 1. Map任务处理 1.1 读取HDFS上的文件,每一行通过Inpu 阅读全文
posted @ 2018-07-04 11:37 雪山过客 阅读(371) 评论(0) 推荐(0) 编辑
摘要: ###Zookeeper集群安装安装集群环境```# /etc/hosts192.168.9.27 slave1192.168.9.28 slave2192.168.9.26 master# jdk环境(1.7)[root@master bin]# java -versionjava version 阅读全文
posted @ 2018-06-20 11:30 雪山过客 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 1. Hive分桶表 简介 桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。 获得更高的查询处理效果 抽样调查 创建分桶表 添加数据前需要先开启分桶 导入数据 查询数据 阅读全文
posted @ 2018-06-19 12:02 雪山过客 阅读(3013) 评论(0) 推荐(0) 编辑