08 2023 档案
摘要:### explode&lateral view explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,在业务系统中是存贮
阅读全文
摘要:### 一、背景 在网站平台类业务需求中用户的「最大登陆天数」,需求比较普遍。原始数据: ```plsql u0001 2019-10-10 u0001 2019-10-11 u0001 2019-10-12 u0001 2019-10-14 u0001 2019-10-15 u0001 2019-
阅读全文
摘要:**工作中的拉链表是使用spark程序开发的,因为一些业务需求单纯使用sql解决不了,以下是使用纯sql写的拉链表**拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。**记录一个事物从开始,一直到当前状态的所有变化的信息。**下面就是一张拉链表,存储的是用户的最
阅读全文
摘要: #### 数据准备 ```plsql 2008 32.0 2008 21.0 2008 31.5 2008 17.
阅读全文
摘要:### 创建表 create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。 ```plsql create table if not exists test.user1( name string comment 'name',
阅读全文
摘要:HIVE-同比环比 定义 详情: (1)同比:本期与同期做对比。(2)环比:本期与上期做对比。 同比:通常是指今年第n月与去年第n月比。同比发展速度主要是为了消除季节变动的影响,用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。常用于分析数据的长期趋势。环比:通常是指表示连续2个单位周
阅读全文
摘要:运算函数 1、取整函数: round 语法: round(double a) 返回值: BIGINT 说明: 返回double类型的整数值部分 (遵循四舍五入) hive> select round(3.1415926) from iteblog; 3 hive> select round(3.5)
阅读全文
摘要:可以登录Apache kafka 官方下载 https://kafka.apache.org/downloads.html 下载Scala 2.13 - kafka_2.13-3.3.1.tgz (asc, sha512) 官方推荐下载scala 2.13版本的。 kafka作为一个分布式流平台,有
阅读全文
摘要:Apache kafka是消息中间件的一种。 举个例子: 生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡
阅读全文