摘要: 1.背景 数仓建模方法有很多种,各有千秋,可能比较常用的是维度建模或者大宽表的方式进行建模的比较多,DataVault模型用的比较少,特此通过例子来实践加深理解一下。 2.DataVault定义 Data Vault是一种数据仓库建模方法,最早由Dan Linstedt在20世纪90年代提出,主要应 阅读全文
posted @ 2023-07-14 09:03 人不疯狂枉一生 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 1.背景 最近gpt很火,于是尝试用gpt来进行古诗词取名,做了一个vue的网站进行展示,第一次部署,踩了一些坑。 2.实施 nodejs安装: 在任意目录执行如下命令进行安装包下载:wget https://npm.taobao.org/mirrors/node/v14.17.6/node-v14 阅读全文
posted @ 2023-07-12 11:00 人不疯狂枉一生 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 最近发现一个免费使用gpt的地址,可以关注公众号码农独白,回复gpt即可获取: 阅读全文
posted @ 2023-07-10 13:49 人不疯狂枉一生 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1.背景 采用华为的DGC+MRS套件,目前两套系统没有彻底打通,所以对SQL资源占用情况不够详细,无法清晰知道哪段脚本(或者表)长时间占用大量计算资源。所以需要搞一个中间系统把DGC和MRS关联起来。 2.方法 计划采用HiveHook的方式把所有的SQL提交内容记录下来存储到HDFS,尤其是qu 阅读全文
posted @ 2023-05-26 16:15 人不疯狂枉一生 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1.背景 mysql密码久了没用,不清楚维护到哪里了,但是navicat里面还有链接信息,所以可尝试从navicat把密码取出来。 2.操作步骤 选择文件,然后导出连接,选择下图需要导出的连接。 查看文件里面存储的密码,密码是加密的,后面需要解密。 拿到密码进行解密,访问https://tool.l 阅读全文
posted @ 2023-04-18 11:31 人不疯狂枉一生 阅读(1188) 评论(0) 推荐(0) 编辑
摘要: 运维哥哥为了获取每个表的访问时间,开启了Hive钩子,在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec,结果导致在使用图1的sql时报找不到虚拟表的错误(如 阅读全文
posted @ 2023-04-12 19:05 人不疯狂枉一生 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 直接操作mysql数据然后插入另一个表,报了一个截断错误,猜测是数据被指定为signed,但是数据出现了非整数,所以报如下图1错误;但是奇怪的是查询不写入表是没问题的,写入表就会报图1错误。 图 1 然后看数据又全是整数或者为空,理论上应该没问题。 图2 核对了数据确实没问题,就简单粗暴的通过忽略错 阅读全文
posted @ 2023-03-29 17:24 人不疯狂枉一生 阅读(257) 评论(0) 推荐(0) 编辑
摘要: Flink读取kafka数据写入hdfs,生成了带下划线的文件名,创建hive表指定该路径,发现数据读取不出来。 查阅源码,原来是会忽悠带下划线和.的文件。 阅读全文
posted @ 2023-02-28 15:51 人不疯狂枉一生 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1.背景 最近在整理以往写的项目,需要把所有做过的项目全部放到一个git地址上,整理过程中,准备再测试一下Flink程序,结果程序无法启动,就只有跟着报错一个一个的踩坑。 2.实施步骤 (1)报无法加载主类,查阅代码以往有些代码和jar包是注释掉的,这次整理代码把注释干掉了,导致很多包引用进来,猜测 阅读全文
posted @ 2023-02-27 18:03 人不疯狂枉一生 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 1.数据库引擎初识 数据引擎大致包含数据结构、存储形式、数据关系、数据更新方式、高效增删改查、日志,围绕这几个方面进行相应权重处理,得到不一样的效果,内容可以整理为如下图: 2.Hudi了解 Hudi提供两种读写方式,一种读时合并,另一种是写时复制,简单的说就是充分利用顺序写,然后加上相关索引等机制 阅读全文
posted @ 2023-02-22 09:03 人不疯狂枉一生 阅读(373) 评论(0) 推荐(0) 编辑