liudehaos

还历史以真诚,还生命以过程。 ——余秋雨
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2022年8月24日

摘要: 1、数据仓库搭建 数据仓库搭建 前提条件,Hadoop,hive 数据仓库分层作用1、控制数据访问权限2、减少重复计算,减少重复开发3、为了更好的管理数据4、让表使用者更方便使用数据 数据规范1、分词规范,ODS,DWD,DWS,ADS,DIM,每个公司分层的方式是不一样的,2、命令规范,库命名规范 阅读全文

posted @ 2022-08-24 19:51 liudehaos 阅读(102) 评论(0) 推荐(0) 编辑

摘要: 一、TopN问题 需要确定使用什么排名函数,包含三种函数:row_number()、rank()、dense_rank() 每个班级的分数为前3名的学生 1 --建表语句 2 create table score(sid string, class string, score int) 3 row 阅读全文

posted @ 2022-08-24 14:41 liudehaos 阅读(266) 评论(0) 推荐(0) 编辑

摘要: hs面试总结: 1 服务器传输命令 -- scp -r ./** node1:`pwd` -- 远程文件拷贝程序,是secure copy program的的缩写 -r (递归) 2. 查看服务器运行情况以及cpu,运用哪个命令 top:查看服务器各个进程情况 df -h:linux查看系统内存(硬 阅读全文

posted @ 2022-08-24 10:07 liudehaos 阅读(38) 评论(0) 推荐(0) 编辑

摘要: 一、Linux 基础命令 linux基础命令: 1、ll 和 ls 查看当前目录下所有的文件和文件夹2、cd 切换目录3、pwd 查看当前目录的一个完整路径 4、ls -a 列出当前目录下的所有文件(包括隐藏文件)5、stat 文件名 查看文件信息6、ls --help 查看ls用法(--help查 阅读全文

posted @ 2022-08-24 09:47 liudehaos 阅读(117) 评论(0) 推荐(0) 编辑

2022年8月16日

摘要: 1、ADS层 统计指标的方法论 原子指标:下单金额,支付金额 派生指标=原子指标+统计周期+业务限定+统计维度 先在mysql中创建数据库gma_ads 1、支付金额 实时计算每个用户每天实时的支付金额 实时计算每个地区每天的支付金额 实时计算每种支付方式每天支付金额 实时统计每个大区每天的支付金额 阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(288) 评论(0) 推荐(0) 编辑

摘要: 一、flink整合hive的catalog flink的元数据需要存放在hive中,需要创建hive的catalog(可以理解为一个flink中的数据库) -- 进入sql客户端 sql-client.sh -- 创建hive catalog CREATE CATALOG hive_catalog 阅读全文

posted @ 2022-08-16 11:14 liudehaos 阅读(470) 评论(0) 推荐(0) 编辑

2022年8月11日

摘要: 一、实时项目框架流程 二、平台搭建 一、项目构建 1、框架版本 hadoop 2.7.6 端口号:hdfs:50070 yarn:8088 hive 1.2.1 zookeeper 3.4.6 hbase 1.4.6 端口号:16010 kafka 1.0.0 Flink 1.15.0 canal: 阅读全文

posted @ 2022-08-11 21:32 liudehaos 阅读(898) 评论(0) 推荐(0) 编辑

2022年7月25日

摘要: 一、搭建Kafka 1、上传解压修改环境变量 # 解压 tar -xvf kafka_2.11-1.0.0.tgz # 配置环境变量 vim /etc/profile export KAFKA_HOME=/usr/local/soft/kafka_2.11-1.0.0 export PATH=$PA 阅读全文

posted @ 2022-07-25 19:23 liudehaos 阅读(1674) 评论(0) 推荐(0) 编辑

2022年7月21日

摘要: spark优化总结: 一、spark 代码优化 六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性 阅读全文

posted @ 2022-07-21 19:55 liudehaos 阅读(1638) 评论(0) 推荐(0) 编辑

2022年7月20日

摘要: 一、依赖 maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins 阅读全文

posted @ 2022-07-20 22:28 liudehaos 阅读(58) 评论(0) 推荐(0) 编辑