摘要: 由于集群Hive默认使用的存储格式为text,为了节省硬盘资源,因此需要对之前的脚本进行改造,最快捷的方式就是在脚本最前面加set hive.default.fileformat=orc,经过测试这个命令确实生效了,很多脚本也运行成功,但是有的脚本在计算的中间过程中会报错,这次针对报错的脚本来解析一 阅读全文
posted @ 2022-09-19 15:31 人不疯狂枉一生 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 一直说安装k8s试用一下,一直没有成功,要么是安装一半报错,没有时间去找问题。 1.关闭selinux setenforce 0 && sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config 2.关闭防火墙 system 阅读全文
posted @ 2022-08-30 18:00 人不疯狂枉一生 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 经常听到有开发人员抱怨开启了向量化,查询速度怎么还这么慢,其实Hive开启向量化并不是万能的,它需要同时满足以下两个条件才能发挥出效果。 1.表的存储类型 表存储的格式需要是Orc或者Parquet,简单的说就是列存储。 2.向量化支持的函数 以下是官网的关于支持向量化的函数,不在这里面的函数是不支 阅读全文
posted @ 2022-08-30 17:51 人不疯狂枉一生 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 好久没使用neo4j,有点忘记了,本文特此记录一下,方便以后快速捡起来。neo4j其实就是一个图数据库,可以清晰明了的表达我们各个节点或者对象之间的关系。首先直接登录网站进行下载安装,官网地址:https://neo4j.com/download-center/。安装好后的界面如下: 安装好后按照下 阅读全文
posted @ 2022-06-10 11:24 人不疯狂枉一生 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 数据开发很多时候由于文档缺失等原因导致不记得一个表哪个字段或者某几个字段构成的主键,不清楚主键很麻烦,我们就不清楚怎么去和其他的表进行关联,或者有些公司各种不规范,需求过来连产品自己都不清楚的情况,那么这个时候就只有开发自己去梳理了(苦逼的数据开发),本文主要是写了一个小工具用于根据数据检测出主键。 阅读全文
posted @ 2021-07-27 13:42 人不疯狂枉一生 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 今天又来练习一个sql,如何把多个条数据按照时间交集合并为一条,没有想到好的方法,稍微有点复杂,大致思路就是自关联表数据,由于如果有交集的数据关联后会出现多次,把这种出现多次的数据合并为一个集合,再从集合里面选出最大和最小日期,然后另一部分数据没有交集,只出现过一次,最后把两部分数据合并到一起就可以 阅读全文
posted @ 2021-07-15 13:48 人不疯狂枉一生 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 最近一位大哥问了一个问题,Hive进行数据清洗时,如果计算累加,并且把缺失的日期带上,最初想的是构造一个中间时间表,然后进行关联,发现特别麻烦,后面想到的大致思路就是使用sum over+视图解决这个问题。 简单说就是想把图一的数据统计出图二的数据。 图一 图二 具体SQL关注公众号《码农独白》查阅 阅读全文
posted @ 2021-07-14 09:34 人不疯狂枉一生 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 公司经常迁集群,很是蛋疼,每次迁移后,需要对比一下判断有差异的表。因此写了一个java小工具进行对比,用法如下: 第一个参数为老集群的hivesever的ip; 第二个参数为新集群的hivesever的ip; 第三个参数为样例数据库(比如两边集群都有一个dw_ods); 第四个参数为指定需要对比的数 阅读全文
posted @ 2021-06-07 15:04 人不疯狂枉一生 阅读(298) 评论(0) 推荐(0) 编辑
摘要: Flink是处理实时数据的利器,但是由于网络抖动导致数据乱序或者数据写入Kafka后写入了不同分区,消费者消费时导致数据先后乱序等,为了解决这样的问题,Flink引人水印加上窗口使乱序数据落入同一个窗口然后进行处理,从而解决乱序问题。 一.水印时间选择 Flink里面的时间分为事件时间,摄入时间,处 阅读全文
posted @ 2021-04-26 16:22 人不疯狂枉一生 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 由于数仓使用的Hive进行搭建,有的业务的数据采用的Mongodb进行数据存储,因此需要把Mongodb里面的数据拉到Hive,本文主要讲解使用Mongoexport进行数据拉取。 一.安装Mongoexport 1. 首先使用vi /etc/yum.repos.d/mongodb-org-3.2. 阅读全文
posted @ 2020-12-25 09:31 人不疯狂枉一生 阅读(435) 评论(0) 推荐(0) 编辑