摘要: 阅读全文
posted @ 2021-06-30 11:16 李昊宗 阅读(94) 评论(0) 推荐(0) 编辑
摘要: ———————————————————————————————————————————————————————————————————— **********sqoop1.4.7********************************************** —————————————— 阅读全文
posted @ 2020-05-01 10:24 李昊宗 阅读(240) 评论(1) 推荐(0) 编辑
摘要: 0、维和度量 事实表Fact Table: 事实表里面主要包含两方面的信息:维和度量 事实表中的维:关联到维表的键,并不记录具体信息; 事实表中度量:一般都会记录事件的相应数值,比如产品的实付金额等 维度表Lookup Table: Lookup Table包含对事实表的某些列进行扩充说明的字段 2 阅读全文
posted @ 2019-11-25 19:15 李昊宗 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 1、简介 背景: 大数据主要存储的两种方式: ①静态数据(HDFS): 优点: 吞吐量大 缺点: 随机读写差 不支持更新操作 //单条数据无法实现更新 ②动态数据(HBase): 优点: 随机读写良好 支持更新操作 缺点: 数据分析的吞吐量小 //HBase读取数据路径比较长,从内存到磁盘,可能还需 阅读全文
posted @ 2019-11-14 15:52 李昊宗 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: 1、界面 status: 可以看见apache druid的版本号,现在是0.16.0,里面有9个扩展项 datasource: 监控数据源:我提交了两次索引服务,所以现在有两个2个DataSource segment: 监控segment:里面有9个Segment,每个Datasource由多个s 阅读全文
posted @ 2019-10-12 10:15 李昊宗 阅读(2483) 评论(0) 推荐(3) 编辑
摘要: 1、前言 从druid的0.11版本开始,我就开始关注它,每一次的版本的更新,druid都会使用户体验、性能更好,从以前手写配置文件到可视化的界面操作,从实时节点进行任务提交到现在的索引服务等 流处理: 日志监控(Flume) > 消息中间件(kafka、MQ) > 流处理(spark stream 阅读全文
posted @ 2019-10-11 17:29 李昊宗 阅读(7472) 评论(3) 推荐(3) 编辑
摘要: 1、数据同步 因为我们需要每天分析的数据都是最新的!!!所以就涉及数据的同步 2、表的分类 ①实体表: 一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等 ②维度表: 一般是指对应一些业务状态,代码的解释表,也可以称之为码表。比如地区表,订单类型,支付类型,商品类别...... ③事实表 阅读全文
posted @ 2019-04-19 20:20 李昊宗 阅读(1570) 评论(0) 推荐(0) 编辑
摘要: 1、拉链表: ①记录每条信息的生命周期为单位 ②一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期作为此记录的生效日期 ③如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-12-31、9999-99-99) 用处: ①需要查看某些业务信息的某一个时间点当日的信息 ②数据 阅读全文
posted @ 2019-04-19 20:15 李昊宗 阅读(1923) 评论(0) 推荐(0) 编辑
摘要: 1、数据仓库ETL https://www.cnblogs.com/yjd_hycf_space/p/7772722.html 2、数据仓库分层 ODS:原始数据层 数据来源可能是通过Flume监控、Sqoop导入....... Flume可以定义拦截器,进行数据ETL。 Sqoop可以通过sql语 阅读全文
posted @ 2019-04-18 10:08 李昊宗 阅读(8372) 评论(0) 推荐(0) 编辑
摘要: 1、范式理论 范式:表示一个关系内部各属性之间的联系的合理化程度,范式级别越高,表的设计就越标准。 ①零范式 它只满足一个最基本的条件——数据中不存在重复数据。 ②一范式 在零范式的基础上加上字段具有原子性即属性不可分这个条件后便形成了符合一范式的表。基于 上面的保险订单统计表一范式和零范式的区别主 阅读全文
posted @ 2019-04-17 20:08 李昊宗 阅读(1319) 评论(0) 推荐(0) 编辑