bingmous

欢迎交流,不吝赐教~

导航

电商数仓项目

1 用户行为数据采集

第1章 数据仓库的概念

数据仓库:为企业所有决策过程,提供所有数据支持的战略集合。包括对数据的清洗、分类、重组、合并、拆分、统计等等

第2 章 项目需求及架构设计

  • 项目需求:用户行为数据采集平台搭建,业务数据采集平台搭建,数据仓库维度建模,分析用户、流量、会员等核心主题
  • 项目框架:
    • 数据采集传输:flume, kafka, sqoop
    • 数据存储:mysql, hdfs
    • 数据计算:hive, tez
    • 任务调度:azkaban
  • 系统数据流程:
    • 业务数据从mysql -- sqoop -- HDFS
    • 用户行为数据logFile -- flume生产 -- kafka -- flume消费 -- HDFS
  • 版本:hadoop2.7.2,flume1.7.0,hive2.3
  • 集群资源规划:

第3章 数据生成模块

埋点数据格式:

  • json格式,用户行为数据包括事件日志和启动日志,都有公共字段,事件日志包含事件json数组,启动日志是单个json,里面et为start

事件日志:

  • 商品列表页(loading)、商品点击(display)、商品详情页(newsdetail)、广告(ad)、消息通知(notification)、用户后台活跃(active_background)、评论(comment)、收藏(favorites)、点赞(praise)、错误日志

启动日志:

  • json格式数据

数据生成脚本:

  • 公共字段AppBase,启动日志AppStart继承AppBase,错误日志AppErrorLog,AppLoading -- AppPraise
  • 主函数:AppMain
  • 打包:配置日志打印logback.xml,生成jar包,在linux下使用java调用

第4章 数据采集模块

安装配置汇总https://blog.csdn.net/weixin_37680513/article/details/107737971

  • hadoop安装
    • 项目经验:hdfs多目录配置,支持lzo压缩,hdfs读写基准测试,参数调优(namenode工作线程池数量,单个任务最大内存,单个map最大内存)
  • zookeeper安装
    • linux环境变量:/etc/profile:用来设置系统环境参数,对所有用户生效,使用bash命令,需要source /etc/profile一下
      ~/.bashrc:针对某一特定的用户,只对该用户有效,使用bash命令,只要该用户运行命令就会读取该文件。
    • 说明:登录式shell会自动加载/etc/profile,非登录式不会自动加载/etc/profile,会自动加载~/.bashrc(将/ect/profile追加到~/.bashrc中:cat /etc/profile >> ~/.bashrc),/etc/profile会加载/etc/profile.d下的所有.sh文件,所以一般将环境变量配置在/etc/profile.d/env.sh

  • 日志生成
  • 安装flume
    • source:Taildir Source 相比Exec Source、Spooling Directory Source 的优势:断点续传、多目录
    • batchSize 大小:默认100,event 1k左右时,500-100合适
    • Channel:采用Kafka Channel,省去了Sink,提高了效率。KafkaChannel 数据存储在Kafka 里面,所以数据是存储在磁盘中
    • Flume 的ETL 和分类型拦截器:实现Interceptor接口,实现4个方法void initialize(),Event intercept(Event event),List<Event> intercept(List<Event> events),void close(),定义静态内部类继承Interceptor.Builder内部类,重写方法,构建自定义拦截器对象
  • kafka安装
    • Kafka 机器数量(经验公式)=2*(峰值生产速度*副本数/100)+1
  • 消费kafka数据flume
    • FileChannel 和MemoryChannel 区别
    • FileChannel,通过配置dataDirs 指向多个路径,每个路径对应不同的硬盘,增大Flume 吞吐量。checkpointDir 和backupCheckpointDir也尽量配置在不同硬盘对应的目录中,保证checkpoint 坏掉后,可以快速使用backupCheckpointDir 恢复数据
    • sink:配置hdfs.rollInterval=3600,hdfs.rollSize=134217728,hdfs.rollCount =0减少hdfs小文件
    • flume内存优化:jvm启动内存和最大内存设置为一致,避免内存抖动带来的性能影响,始化时内存不够会频繁触发fullgc
  • linux常用命令:
    • top 查看内存情况
    • df -h 查看磁盘存储情况 
    • iotop -o 查看磁盘IO情况
    • netstat -tunlp | grep 端口号 查看端口占用情况,t:tcp,u:udp,n:num,l:listening,p:process
    • uptime 查看运行时长及平均负载
    • ps -aux,ps -ef 查看所有进程

2 业务数据采集平台

  • 第1章 电商业务简介
  • 第2章 业务数据采集
    • 安装MySQL,Sqoop
    • 生成业务数据,使用Sqoop导入HDFS
  • 第3章 数据环境准备
    • 安装Hive2.3
    • 安装Hive运行引擎Tez(将多个依赖的job串联成一个job,中间结果不落盘)

3 电商数据仓库系统

  • 第1章 数仓分层
    • ods,dwd,dws,dwt,ads
    • ods为元数据,dwd层进行数据建模,dws和dwt都是建宽表,都是按主题建,ads层对主题指标进行分析,提供报表数据
    • 分成多层,方便管理数据,把复杂问题简单化,每一层只处理单一的步骤,也容易定位出现的问题
  • 第2章 数仓理论
    • 三范式:
    • 关系建模(主要应用于OLTP(联机事务处理),冗余少,但在大规模数据中,多表关联效率低),
    • 维度建模(主要应用于OLAP(联机分析处理),一般划分为事实表和维度表)
      • 星型模型(维度只有一层),雪花模型(比较接近三范式,但不完全是),星座模型(有多个事实表时)
    • 维度表:一般是对事实的描述信息,多个属性,列比较多,行比较少,宽表
    • 事实表:每一行代表一个业务事件,比如订单,列比较少,行比较多,高表
  • 第3章 数仓搭建ods层(原始数据层,存放原始数据,不做任何更改)
    • 将orginal_data中的数据加载到ods层,按日期分区,一条数据整体是一个列
    • 表(事件日志表):ods_event_log
  • 第4章 数仓搭建dwd层(对ods层数据进行清洗过滤,维度退化等)
    • 日志数据:建立各种明细表
    • 解析事件日志需要自定义UDF,UDTF(一进多出,使用lateral view udtf() x as xx)
    • 表(事件明细表):ods_base_event_log,使用UDF,UDTF解析数据成基本字段和单个事件(字段event_name,event_json)
    • 根据解析出来的事件,建立各种基础明细表,点击,评论,收藏等等,(前面是公共字段,后面是事件中的字段)
    • 表(商品点击表):ods_display_log
    • 业务数据:建立各种维度表
  • 第5章 数仓搭建dws层(以dwd层为基础,进行按天进行轻度汇总,日活数据)
    • collect_set()函数,将某一类合成一个set
    • nvl(v1, v2),v1为null则返回v2
    • 日期处理函数:data_format(v1, v2)将v1改成v2格式,date_add(v1, 1),next_dat()下一周的某一天,last_day()月末
    • 用户行为表(日志)
    • 表(每日用户行为):将事件使用collect_set和concat_ws进行行转列,多行转成一列
    • 用户行为表(业务)
  • 第6章 数仓搭建dwt层(以dws层为基础,按主题进行汇总)
    • 设备主题、会员主题、商品主题等等
  • 第7章 数仓搭建ads层(为统计报表提供数据)
    • 按主题提供报表统计数据(留存率(一段时间内还在的用户/当时新增用户))

 

posted on 2020-09-20 19:44  Bingmous  阅读(160)  评论(0编辑  收藏  举报