摘要: 使用hive储存数据时,需要对做分区,如果从kafka接收数据,将每天的数据保存一个分区(按天分区),保存分区时需要根据某个字段做动态分区,而不是傻傻的将数据写到某一个临时目录最后倒入到某一个分区,这是静态分区。 Hive动态分区步骤如下: 1、建立某一个源表模拟数据源并插入一些数据 2、建立一张分 阅读全文
posted @ 2019-04-03 19:47 静悟生慧 阅读(4278) 评论(0) 推荐(0) 编辑
摘要: 一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e 阅读全文
posted @ 2019-04-03 15:09 静悟生慧 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 一、简介 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用 阅读全文
posted @ 2019-04-03 14:59 静悟生慧 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 GROUPING SETS和GROUPING__ID 说明 在一个GROUP BY查询中,根据不同 阅读全文
posted @ 2019-04-03 13:26 静悟生慧 阅读(48165) 评论(2) 推荐(4) 编辑