随笔分类 - 项目实战
摘要:一、枚举类编写ResponseCode package com.boulderaitech.common; /** * 编写枚举类的步骤 * (1)编写所需的变量 * (2)编写枚举类构造方法 * (3)编写枚举的值,调用构造方法,使用逗号隔开 * (4)编写方法获取枚举类中对应的值 */ publ
阅读全文
摘要:一、资料链接 1、github地址 https://github.com/qq1534774766/wx-push 2、教程地址 https://blog.csdn.net/qq15347747/article/details/126521774 3、易客云API(自动发送天气) https://y
阅读全文
摘要:一、目录 第一章:大数据与数据仓库概论 第二章:项目需求描述 第三章:项目部署的环境准备 第四章:用户行为数据采集 第五章:业务数据采集模块 第六章:数据仓库搭建模块 第七章:数据可视化模块 第八章:即席查询模块 第九章:元数据管理模块 二、知识框架体系
阅读全文
摘要:一、技术架构 1、整体介绍及架构 (1)概述 Odeon大数据平台以全图形化Web操作的形式为用户提供一站式的大数据能力:包括数据采集、任务编排、调度及处理、数据展现(BI)等;同时提供完善的权限管理、日志追踪、集群监控等能力 自己描述:一个PAAS平台即服务,全图形web操作构建数据闭环,实现多源
阅读全文
摘要:一、数据可视化接口介绍 1、设计思路 后把轻度聚合的结果保存到 ClickHouse 中后,提供即时的查询、统计、分析 展现形式:用于数据分析的BI工具【商业智能(Business Intelligence)】、面向非专业人员的数据大屏 本章节使用面向百度的Sugar数据大屏服务 2、需求梳理 (1
阅读全文
摘要:一、ClickHouse入门 1、介绍 是一个开源的列式存储数据库(DBMS) 使用C++编写 用于在线分析查询(OLAP) 能够使用SQL查询实时生成分析数据报告 2、特点 (1)列式存储 比较: 行式存储适用于查询某条记录的信息 列式存储适用于查询所有人的信息 好处: 聚合、计数、求和等统计操作
阅读全文
摘要:一、DWS层与DWM设计 1、思路 之前已经进行分流 但只需要一些指标进行实时计算,将这些指标以主题宽表的形式输出 2、需求 访客、商品、地区、关键词四层的需求(可视化大屏展示、多维分析) 3、DWS层定位 轻度聚合、主题中管理 二、DWS层-访客主题宽表的计算 DWS表主要包含维度表和事实表 维度
阅读全文
摘要:一、DWS层与DWM层的设计 1、设计思路 分流到了DWD层,并将数据分别出传入指定的topic 规划需要实时计算的指标,形成主题宽表,作为DWS层 2、需求梳理 DWM 层主要服务 DWS,因为部分需求从 DWD 层到DWS 层中间会有一定的计算量,这部分计算的结果很有可能被多个 DWS 层主题复
阅读全文
摘要:一、需求分析及实现思路 1、分层需求 建立数仓目的:增加数据计算的复用性 可以从半成品继续加工而成 从kafka的ODS层(数据一开始就读到了kafka)读用户行为数据和业务数据,并写回到kafka的DWD层 2、各层的职能 3、DWD层数据准备 环境搭建、计算用户行为日志DWD层、计算业务数据DW
阅读全文
摘要:一、数仓分层介绍 1、实时计算与实时数仓 实时计算实时性高,但无中间结果,导致复用性差 实时数仓基于数据仓库,对数据处理规划、分层,目的是提高数据的复用性 2、电商数仓的分层 ODS:原始日志数据和业务数据 DWD:以数据对象为单位进行分流,如订单、页面访问等 DIM:维度数据 DWM:数据对象进一
阅读全文
摘要:一、数据流程 1、离线数仓 2、实时数仓 二、课程内容 1、数据采集层(ODS) 2、DWD层与DIM层数据准备 3、DWM层业务实现 4、DWS层业务实现 5、ClickHouse 6、数据可视化接口实现 7、数仓优化 8、FlinkCDC 三、框架结构 四、知识点总结 1、开发工具 2、web开
阅读全文
摘要:一、SuperSet-图表展示 1、概念 (1)概念 通过dashboard(仪表盘)对图表中的数据进行展示 BI工具:根据配置的要求,进行数据源的配置即可 是准商业级别的BI web应用 (2)原理 通过UI界面,向Flask编写的web应用发送请求 > web应用处理请求,对接数据源摄取数据 >
阅读全文
摘要:一、DWS层 1、概括 dwd层的数据,每日轻度聚合,建宽表 表名粒度 dws_uv_detail_daycount 一个设备是一行 dws_user_action_daycount(只统计今天登录的会员) 一个会员是一行 dws_sku_action_daycount(只统计被下单或平均或支付或加
阅读全文
摘要:一、2.0版本对比 二、业务介绍 1、术语 SKU SPU UV: user views 用户浏览总量【浏览量】 PV:page views 页面浏览总量 2、电商业务表结构 表名同步方式字段名字段描述 order_info(订单表) 新增和变化 order_status 订单状态(会被修改) cr
阅读全文
摘要:1.即席查询 一、Presto 大数据量、秒级、多数据源的查询引擎【支持各种数据源work的内存级查询】 由coordinator和多个work构成,work对应不同数据源Catalog 特点:基于内存运算,无需map reduce,但连查表可能会产生大量临时数据 安装:server、client、
阅读全文
摘要:一、Presto 1、简介 概念:大数据量、秒级、分布式SQL查询engine【解析SQL但不是数据库】 架构 不同worker对应不同的数据源(各数据源有对应的connector连接适配器) 优缺点 缺点:读数据连查表会产生大量临时数据 与impala比较 Impala性能稍领先于Presto,但
阅读全文
摘要:一、电商业务与数据结构简介 1、业务流程 2、常识:SKU/SPU SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索
阅读全文
摘要:一、数仓分层概念 1、为什么要分层 ODS:原始数据层 DWD层:明细数据层 DWS:服务数据层 ADS:数据应用层 2、数仓分层 3、数据集市与数据仓库概念 4、数仓命名规范 ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数
阅读全文
摘要:一、数据仓库概念 二、项目需求及架构设计 1、需求分析 2、项目框架 3、框架版本选型 服务器选型:云主机 服务器规划 三、数据生成模块 1、数据基本格式 公共字段:所有手机都包含 业务字段:埋点上报的字段,有具体的业务类型 "et": [ //事件 { "ett": "1506047605364"
阅读全文
摘要:五、业务数仓搭建 1、业务数据生成 建库建表gmall 需求:生成日期2019年2月10日数据、订单1000个、用户200个、商品sku300个、删除原始数据。 CALL init_data('2019-02-10',1000,200,300,TRUE); 2、业务数据导入数仓 编写Sqoop定时导
阅读全文