李昊宗 - 博客园

2021年6月30日

05-数据仓库整体建设2021年6月最新脑图版

摘要：阅读全文

posted @ 2021-06-30 11:16 李昊宗阅读(104) 评论(0) 推荐(0)

2020年5月1日

摘要： ———————————————————————————————————————————————————————————————————— **********sqoop1.4.7********************************************** —————————————— 阅读全文

posted @ 2020-05-01 10:24 李昊宗阅读(259) 评论(1) 推荐(0)

2019年11月25日

1-kylin架构

摘要： 0、维和度量事实表Fact Table：事实表里面主要包含两方面的信息：维和度量事实表中的维：关联到维表的键，并不记录具体信息；事实表中度量：一般都会记录事件的相应数值，比如产品的实付金额等维度表Lookup Table： Lookup Table包含对事实表的某些列进行扩充说明的字段 2 阅读全文

posted @ 2019-11-25 19:15 李昊宗阅读(694) 评论(0) 推荐(0)

2019年11月14日

1-kudu架构原理读写流程

摘要： 1、简介背景：大数据主要存储的两种方式： ①静态数据（HDFS）：优点：吞吐量大缺点：随机读写差不支持更新操作 //单条数据无法实现更新 ②动态数据（HBase）: 优点：随机读写良好支持更新操作缺点：数据分析的吞吐量小 //HBase读取数据路径比较长，从内存到磁盘，可能还需阅读全文

posted @ 2019-11-14 15:52 李昊宗阅读(1861) 评论(0) 推荐(0)

2019年10月12日

2、apache druid界面说明

摘要： 1、界面 status: 可以看见apache druid的版本号，现在是0.16.0，里面有9个扩展项 datasource: 监控数据源：我提交了两次索引服务，所以现在有两个2个DataSource segment：监控segment：里面有9个Segment，每个Datasource由多个s 阅读全文

posted @ 2019-10-12 10:15 李昊宗阅读(2563) 评论(0) 推荐(3)

2019年10月11日

1-apache druid架构、原理、执行流程

摘要： 1、前言从druid的0.11版本开始，我就开始关注它，每一次的版本的更新，druid都会使用户体验、性能更好，从以前手写配置文件到可视化的界面操作，从实时节点进行任务提交到现在的索引服务等流处理：日志监控（Flume） > 消息中间件（kafka、MQ） > 流处理（spark stream 阅读全文

posted @ 2019-10-11 17:29 李昊宗阅读(7672) 评论(3) 推荐(3)

2019年4月19日

04-数据仓库之数据同步策略

摘要： 1、数据同步因为我们需要每天分析的数据都是最新的！！！所以就涉及数据的同步 2、表的分类 ①实体表：一般是指一个现实存在的业务对象，比如用户，商品，商家，销售员等 ②维度表：一般是指对应一些业务状态，代码的解释表，也可以称之为码表。比如地区表，订单类型，支付类型，商品类别...... ③事实表阅读全文

posted @ 2019-04-19 20:20 李昊宗阅读(1620) 评论(0) 推荐(0)

03-数据仓库之拉链表

摘要： 1、拉链表： ①记录每条信息的生命周期为单位 ②一旦一条记录的生命周期结束，就重新开始一条新的记录，并把当前日期作为此记录的生效日期 ③如果当前信息至今有效，在生效结束日期中填入一个极大值（如9999-12-31、9999-99-99）用处： ①需要查看某些业务信息的某一个时间点当日的信息 ②数据阅读全文

posted @ 2019-04-19 20:15 李昊宗阅读(1983) 评论(0) 推荐(0)

2019年4月18日

02-数据仓库之数据分层

摘要： 1、数据仓库ETL https://www.cnblogs.com/yjd_hycf_space/p/7772722.html 2、数据仓库分层 ODS：原始数据层数据来源可能是通过Flume监控、Sqoop导入....... Flume可以定义拦截器，进行数据ETL。 Sqoop可以通过sql语阅读全文

posted @ 2019-04-18 10:08 李昊宗阅读(8442) 评论(0) 推荐(0)

2019年4月17日

01-数据仓库之数据建模

摘要： 1、范式理论范式：表示一个关系内部各属性之间的联系的合理化程度，范式级别越高，表的设计就越标准。 ①零范式它只满足一个最基本的条件——数据中不存在重复数据。 ②一范式在零范式的基础上加上字段具有原子性即属性不可分这个条件后便形成了符合一范式的表。基于上面的保险订单统计表一范式和零范式的区别主阅读全文

posted @ 2019-04-17 20:08 李昊宗阅读(1376) 评论(0) 推荐(0)