思维分析逻辑 6 DAY

数据仓库研究

大数据体系#

  1. 日志采集和传输
  2. 数据建模
  3. 数据管理
  4. 数据应用

数据建模#

  1. 日志传输(原始数据)
  2. ODS(原始数据)
    用户基础属性表:imei,prov,city,machine
    用户文章下发表:imei,article_id,xiafa_time
    用户文章点击表:imei,article_id,dianji_time
    文章属性表:article_id,category_id,title
  3. DWS(用户粒度聚合)
    用户文章基础属性表:imei,prov,city,machine,article_id,category_id,xiaofa_pv,dianjipv,title,xiaofa_time,dianji_time
    用户分类属性表:imei,proy,city,machine,category_id,xiafa_pv,dianji_pv
  4. DM(常规应用)
    省份下发点击PV数:prov,city,xiafa_pv,dianji_pv
    分类下发点击PV数:category_id,xiafa_pv,dianji_pv

数据管理#

  1. 计算管理:join注意事项,表选择,MR内部原理
  2. 数据存储管理:核心的表尽量保存的久一点(3个月以上),非核心的表1个月内即可
  3. 权限管理:分析师往往是管理员权限,所以不要随便给其他人开权限

作者:Hovey

出处:https://www.cnblogs.com/thankcat/p/16907318.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @   ThankCAT  阅读(22)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示