08 2023 档案

摘要:kafka或kinesis 做数据收集 S3+redshift 做数仓 EMR做计算 RDS做数据市场 AWS Glue / AWS Data Pipeline 做数据集成 这些组件配合起来,几乎可以做各种方式的数据分析 kinesis还是比较推荐,延迟时间可以配置的算是实时的,而且功能会多一点,聚 阅读全文
posted @ 2023-08-20 14:57 半个程序猿Cohen_Lee 阅读(96) 评论(0) 推荐(0) 编辑
摘要:1.Azure data lake,data factory, databricks,sql DB 2.文件,DB,API的ETL经验, 3.Azure权限和安全体系 4.逻辑和物理分层模型 5.熟练SQL能力 6.具备编程能力,例如python,C#,scala 7.机器学习 8.Agile项目管 阅读全文
posted @ 2023-08-13 22:30 半个程序猿Cohen_Lee 阅读(33) 评论(0) 推荐(0) 编辑
摘要:hive sql函数 字符串函数:1.length: length(string A)2.reverse: reverse(string A)3.concat: concat(string A,string B)4.concat_ws: concat_ws(string sep,string A,s 阅读全文
posted @ 2023-08-13 22:29 半个程序猿Cohen_Lee 阅读(10) 评论(0) 推荐(0) 编辑
摘要:关联规则 AB测试 聚类算法 查找问题:漏斗分析 横向分析 小辛野子: 先是一个sql,让算新增用户数,7日内的留存 小辛野子: 然后问了决策树算法、聚类算法、关联规则 小辛野子: 解释贝叶斯定理的公式 小辛野子: 用假设检验和置信区间解释第一类错误第二类错误 小辛野子: 还有各种因果推断方法 阅读全文
posted @ 2023-08-13 22:28 半个程序猿Cohen_Lee 阅读(8) 评论(0) 推荐(0) 编辑
摘要:1.数据颗粒度, 维度 2.是数据量 3.笛卡尔积 加条件,内连接 外连接等 4.行转列 sql case when的理解 造列 行转列 case when / if 列转行 union all 列转换成字符串GROUP_CONCAT 5.hive 中 MR 6.hive join 7. hive 阅读全文
posted @ 2023-08-13 22:27 半个程序猿Cohen_Lee 阅读(8) 评论(0) 推荐(0) 编辑
摘要:set hive.execution.engine=tez; with dates as ( select date_add("2000-01-01", a.pos) as d from (select posexplode(split(repeat("o", datediff("2023-12-3 阅读全文
posted @ 2023-08-13 22:26 半个程序猿Cohen_Lee 阅读(17) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示