2019 年 4月 3 日随笔档案 - 静悟生慧

2019年4月3日

摘要：使用hive储存数据时，需要对做分区，如果从kafka接收数据，将每天的数据保存一个分区（按天分区），保存分区时需要根据某个字段做动态分区，而不是傻傻的将数据写到某一个临时目录最后倒入到某一个分区，这是静态分区。 Hive动态分区步骤如下： 1、建立某一个源表模拟数据源并插入一些数据 2、建立一张分阅读全文

posted @ 2019-04-03 19:47 静悟生慧阅读(4304) 评论(0) 推荐(0) 编辑

Spark2.3 HA集群的分布式安装

摘要：一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e 阅读全文

posted @ 2019-04-03 15:09 静悟生慧阅读(311) 评论(0) 推荐(0) 编辑

Spark初识

摘要：一、简介 1、什么是Spark 官网地址：http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用阅读全文

posted @ 2019-04-03 14:59 静悟生慧阅读(365) 评论(0) 推荐(0) 编辑

Hive SQL grouping sets 用法

摘要：概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。 GROUPING SETS和GROUPING__ID 说明在一个GROUP BY查询中，根据不同阅读全文

posted @ 2019-04-03 13:26 静悟生慧阅读(48514) 评论(2) 推荐(4) 编辑

静悟生慧

公告