摘要: ssh-keygen -t rsa -b 4096 -C "congcong16@staff.weibo.com" ssh-keygen -t rsa -b 4096 -f id_rsa-remote-ssh 建议直接cat 本地的id_rsa.pub,然后复制内容到服务器的~/.ssh/autho 阅读全文
posted @ 2024-02-09 16:58 半个程序猿Cohen_Lee 阅读(13) 评论(0) 推荐(0) 编辑
摘要: kafka或kinesis 做数据收集 S3+redshift 做数仓 EMR做计算 RDS做数据市场 AWS Glue / AWS Data Pipeline 做数据集成 这些组件配合起来,几乎可以做各种方式的数据分析 kinesis还是比较推荐,延迟时间可以配置的算是实时的,而且功能会多一点,聚 阅读全文
posted @ 2023-08-20 14:57 半个程序猿Cohen_Lee 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 1.Azure data lake,data factory, databricks,sql DB 2.文件,DB,API的ETL经验, 3.Azure权限和安全体系 4.逻辑和物理分层模型 5.熟练SQL能力 6.具备编程能力,例如python,C#,scala 7.机器学习 8.Agile项目管 阅读全文
posted @ 2023-08-13 22:30 半个程序猿Cohen_Lee 阅读(27) 评论(0) 推荐(0) 编辑
摘要: hive sql函数 字符串函数:1.length: length(string A)2.reverse: reverse(string A)3.concat: concat(string A,string B)4.concat_ws: concat_ws(string sep,string A,s 阅读全文
posted @ 2023-08-13 22:29 半个程序猿Cohen_Lee 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 关联规则 AB测试 聚类算法 查找问题:漏斗分析 横向分析 小辛野子: 先是一个sql,让算新增用户数,7日内的留存 小辛野子: 然后问了决策树算法、聚类算法、关联规则 小辛野子: 解释贝叶斯定理的公式 小辛野子: 用假设检验和置信区间解释第一类错误第二类错误 小辛野子: 还有各种因果推断方法 阅读全文
posted @ 2023-08-13 22:28 半个程序猿Cohen_Lee 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 1.数据颗粒度, 维度 2.是数据量 3.笛卡尔积 加条件,内连接 外连接等 4.行转列 sql case when的理解 造列 行转列 case when / if 列转行 union all 列转换成字符串GROUP_CONCAT 5.hive 中 MR 6.hive join 7. hive 阅读全文
posted @ 2023-08-13 22:27 半个程序猿Cohen_Lee 阅读(7) 评论(0) 推荐(0) 编辑
摘要: set hive.execution.engine=tez; with dates as ( select date_add("2000-01-01", a.pos) as d from (select posexplode(split(repeat("o", datediff("2023-12-3 阅读全文
posted @ 2023-08-13 22:26 半个程序猿Cohen_Lee 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 見表 ``` CREATE TABLE `external_source`.`algorithm_tag` ( `tag_code` STRING, `category_code` STRING, `category_cn` STRING, `category_en` STRING, `catego 阅读全文
posted @ 2023-07-17 21:00 半个程序猿Cohen_Lee 阅读(9) 评论(0) 推荐(0) 编辑
摘要: mount脚本 ``` app_id = 'c9a7266a-034d-43df-89ad-bbaa35267478' tenant_id = 'eef727ff-82de-4c60-902b-830774836bfe' secret = 'add-when-use' configs = {"fs. 阅读全文
posted @ 2023-07-17 10:24 半个程序猿Cohen_Lee 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 和候选人说下: 1、varchar型字段存了时间戳值,SQL从中取出存储的时间戳转成时间 2、三个表做关联,SQL是否正确或能查出什么结果集 3、数据迁移相关问题 可能和上述提示有关系;只有这么多信息了,我尽力了。 阅读全文
posted @ 2023-04-06 14:35 半个程序猿Cohen_Lee 阅读(3) 评论(0) 推荐(0) 编辑