3/25数仓面试总结

  1. 数据采集模块  主要采集什么  业务数据和用户行为数据  包括  页面浏览记录,启动记录,错误记录,曝光记录,动作记录 格式包括页面日志和启动日志JSON格式?
  2. flume怎么采集

     

     

  3.  

    第一次见没有sink的flume

     

     

  4.  

    业务数据怎么说?sku商品表  平台表 流水表  退单表 订单详情  优惠券表  省份表   在网上找的数据集 

  5. 用户行为数据怎样由kafka导入到hdfs  flume优化  filechannel优化

     

     

     

     

     

     

  6. 业务数据同步才有增量和全量这个概念 

     

     而且这里的增量同步不是新增了什么表拿过来,业务数据库创建时的表几乎就是全部需要用到的表了,不需要建,将同步的数据建成原表拿过来!

  7. 全量表同步用datax 因为离线方式

     

     

     

     每一张表太麻烦,看有什么配置工具。

  8. 最后把每天的同步脚本写好    写好脚本后要修改配置权限777

     

     遗憾哪里冒出来的kafka  不是MySQL数据库嗎?原来MySQL要将首日表同步到kafka,需要用到Maxwell的boostrap功能  kafka是支持offset的!对于端到端的准确性非常重要!

     

  9. 建模理论

     

     

     

     

     

     

  10. 维度表设计  主维表和相关维表都是事实表

     

     维度属性就是除了主键之外的维度字段  维度属性可从主维表或者相关维表得到!

  11. 雪花模型和星辰模型

     

     

     

     

     

     

  12.  

    数仓分层一共有五层  我已经知道了至少四层!

     

  13.  

    大多数统计需求都是原子指标、派生指标、衍生指标这套模式,大多数派生指标可以复用,作为公共指标,提供效率

     

     

     

     

     汇总表DWs

  14.  

     

     

     

     

     

  15.  

    ODS层设计

     

     

     

     

     

     

     

     

     

     

     

     将需要绘制的导出到SQL   ADS服务  各种面向主题的报表

posted @   SunShine789  阅读(7)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示