随笔分类 - 大数据技术栈 / dw_realtime
实时数仓
摘要:ADS聚合 需求分析 以热门品牌统计为例,将数据写入到ads层,然后根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 热门商品统计(作业) 热门品类统计(作业) 交易用户性别对比(作业) 交易用户年龄段对比(作业) 交易额省市分布(作业) 业务流程图 ADS层写入
阅读全文
摘要:数据的准备 有直接将日志生成到文件,而是将日志发送给某一个指定的端口 1. 通过SpringBoot进行日志的采集 开发SpringBoot程序gmall-logger,采集日志数据 借助Logbak将采集的日志落盘 (1) 在LoggerController上加@Slf4j注解,并通过log.in
阅读全文
摘要:1. 需求分析 离线T+1 需求 一般是根据前一日的数据生成报表等数据,虽然统计指标、报表繁多,但是对时效性不敏感。实时T+0 需求 主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 即席需求 临时需求,可用即席查询如Im
阅读全文
摘要:1. 日活DAU ① SparkStreaming消费kafka数据 Kafka作为数据来源,从kafka中获取日志,kafka中的日志类型有两种,启动和事件,统计日活,只获取启动日志即可。 1. 从Redis中获取Kafka分区偏移量(将偏移量存储到redis中 ,手动维护kafka偏移量 ) 2
阅读全文
摘要:业务数据 需求分析:当日新增付费用户首单分析 按省份| 用户性别| 用户年龄段,统计当日新增付费用户首单平均消费及人数占比 无论是省份名称、用户性别、用户年龄,订单表中都没有这些字段,需要订单(事实表)和维度表(省份、用户)进行关联,形成宽表后将数据写入到ES,通过Kibana进行分析以及 图形展示
阅读全文
摘要:订单明细实付金额分摊以及交易额统计 需求分析 主订单的应付金额【origin_total_amount】一般是由所有订单明细的商品单价 * 数量汇总【sku_price * sku_num】组成。 但是由于优惠、运费等都是以订单为单位进行计算的,所以减掉优惠、加上运费会得到一个最终实付金额【fina
阅读全文
摘要:1. 定义 Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器; 特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。 Nginx 是由俄罗斯人 Igor Sys
阅读全文
摘要:SpringBoot 1. Spring Boot 约定大于配置 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。 该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。有了springboot
阅读全文