上一页 1 2 3 4 5 6 7 ··· 10 下一页
摘要: 本文记录木东居士bilibili-数仓主题分享内容 P5.数据模型对比 1.范式建模 优点:节约存储、结构清晰、易于理解、适合关系型数据库 缺点:构建比较繁琐、查询复杂、不适合构建在大数据分布式环境下 业务数据往往是根据主键更新,范式建模更新比维度建模更新更简单 2.维度建模 优点:方便使用、适合大 阅读全文
posted @ 2021-01-05 23:48 foolangirl 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 本文记录木东居士bilibili-数仓主题分享内容 P1课程介绍 1.课程目标:独立从0到1建数仓;规划数仓发展路径;带好数仓团队 2.数据岗位的要求: 3.本课程内容: P2什么是数据仓库 1.数据仓库发展历史 2.什么是数据仓库 3.为什么建数据仓库 4.数据仓库 VS 数据中台 P3基础概念讲 阅读全文
posted @ 2021-01-05 22:48 foolangirl 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 本文记录木东居士bilibili-数仓主题分享内容 P1企业级数据仓库介绍 1. 数仓痛点 2. 数仓模型 类似ODS -> DW( DWD ->DWS) ->TDM ->ADS 调用原则:(跨层指APP不要直接调ODS 数仓规范 1.表命名规范: 业务域指业务范围划分,如银行的零售业务、对公业务; 阅读全文
posted @ 2021-01-04 23:13 foolangirl 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 本文记录木东居士数仓主题分享内容 分享地址:https://www.bilibili.com/video/av96469217 导读 技能干货:主题域划分规则;数据集市与主题域如何衔接;数据治理之数据标准化;数据中台;实时数仓;传统数仓与互联网数仓异同 职业发展:数仓困境-善战者无赫赫战功;除了技术 阅读全文
posted @ 2021-01-03 22:13 foolangirl 阅读(678) 评论(0) 推荐(0) 编辑
摘要: Schema是什么 DataFrame中的数据结构信息,即为schema。DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。 自动推断生成schema 使用spark的示例文件people.json, 查看数据: [r 阅读全文
posted @ 2021-01-03 16:43 foolangirl 阅读(2639) 评论(0) 推荐(0) 编辑
摘要: 转载: https://blog.csdn.net/HappyRocking/article/details/79885071?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_ 阅读全文
posted @ 2021-01-03 11:02 foolangirl 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 场景 有一张明细事务级别的流水表,主键是事件流水号srl_id, 该表每天采集当天新增及变化的事件下发,上游下发文件分区日期prt_dt. 存在这样的情况,某个流水号srl_id在20210101发生,会在prt_dt=20200101的分区首次下发,若之后在20200105发生改变,在prt_dt 阅读全文
posted @ 2021-01-02 15:19 foolangirl 阅读(1152) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/lxpbs8851/article/details/17118841 情况: 表: test_table 已有字段 (a,b,c) 已有分区: day_key=20131201 day_key=20131202 day_key=20131203 需求 阅读全文
posted @ 2020-12-31 20:23 foolangirl 阅读(990) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/cuichunchi/article/details/109999526 需要使用hive的正则表达式,需要设置hive的参数,在这种配置中,反引号名成被解释为正则表达式: set hive.support.quoted.identifiers=no 阅读全文
posted @ 2020-12-30 20:04 foolangirl 阅读(1455) 评论(0) 推荐(0) 编辑
摘要: 原理 参考:https://blog.csdn.net/u013668852/article/details/79866931 group by多字段 select rank, isonline, count(*) from city group by rank, isonline; 将GroupB 阅读全文
posted @ 2020-12-29 23:59 foolangirl 阅读(712) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 10 下一页