20190523 对数据仓库的一些思考
数据仓库 跟 数据集市的区别 ?
数据仓库: 是汇集企业所有数据的存储库房
数据集市:是针对某个主题得到的部分数据
如何构建一个数据仓库?
目前外包公司对很多客户公司其实构建的数据仓库多不符合数据仓库模型
那么这个“外包”数据仓库从何而来,就按一个部门来看,针对的是该部门需要的数据,原来的业务分析都是基于Excel的,所以很多数据根据业务相关的Excel去得到(这应是繁琐又最简单的数据来源了)
这些数据没有进过加工,也就是没有业务部门人员的公式运算,但在数仓里面这个就变成了计算加工得到结果集
外包公司大多没有对数据仓库构建的建模概念想法,一般是业务想要什么数据,就做什么表结构,唯一就是说数据的同步方面有一定的方式,有人问了我关于实时业务数据库跟数据仓库之间的数据同步问题,因为很多业务数据库创建的人没有思考过时间戳的问题导致很多数据源头到数仓都数据同步、处理就会有问题,导致同步的不容易
然而我觉得有个问题,当数据同步到数仓中后,逻辑加工,滚数,一旦中间数据有一点问题,很难发现
哪怕数据同步到数仓后时漏数,一样发现会很晚,预警机制不够,数据透明检测也是一个弊端
后期会出现,大量的修数,重加工动作
做数据最重要的,数据空间结构,什么阶段数据是可能是什么样子,便于结构处理
也许并不是你需要的内容,这只是我人生的一些痕迹.
-- soar.pang