随笔分类 - 数据仓库
数据仓库
摘要:介绍 之前在去哪儿做数据RD,今年来到美团做数据RD,碰巧都是门票方向(现在去哪儿叫度假,美团叫境内),下面都是基于这两个部门的对比 相同点 都有独立的数据团队,老大都重视数据,主要开发语言都是SQL,都用jira管理任务 不同点 一、团队人数 去哪儿数据RD3-5个人,美团数据RD10-13人。去
阅读全文
摘要:简介 一转眼在去哪儿网玩乐事业部工作快4年了,经历了数据团队的组建和发展,回顾一下整体过程,经历了很多坎坷,普通而不简单。下面是大事记 2014年(系统搭建):开发报表平台、接入HADOOP、搭建调度系统 2015年(数据集市):搭建数据集市、开发数据同步工具 2016年(数据应用):系统定价、多维
阅读全文
摘要:Kimball建模方法的精髓,就是简单、使用,建模这四步骤是它的核心部分。用术语表达是:始终一致的四步设计维度模型,分别如下: 一、选择业务过程 业务过程是由组织完成的一系列微观活动,例如:完成下单、完成支付、发放代金券、上线产品等等。充分理解它们,有助于辨别组织中的不同业务过程,它一般具有这些特性
阅读全文
摘要:事实表分成三种:事务事实表、周期快照事实表、累计快照事实表 事务事实表 官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表 周期快照事实表 如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:
阅读全文
摘要:最近打算阅读一下数据仓库相关的书籍,百度了一下,有两本必读书《数据仓库工具箱》和《数据仓库》。简单介绍一下,《数据仓库》这本书更像是一本教材,里面的内容很经典;《数据仓库工具箱》看书名是一本单纯的工具书,其实里面都是实战。两本书各有千秋,我决定主要阅读《数据仓库工具箱》,今天分享第一章的内容,以后会
阅读全文
摘要:维度建模的数据仓库中,有一个概念叫Bus Architecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。
阅读全文
摘要:一、简介 1.1 历史 搞数据仓库这么久,实践中发现首先搭建数据集市,还是清洗数据之后,直接进入数据立方体(形成维度表和实施表)形成核心数据仓库层,是个选择题... 随后发现这其实涉及到了数据仓库的历史问题,是采用Inmon建模还是采用Kimball建模?甚至有人称之为数据仓库界的宗教之争。下面我说
阅读全文
摘要:我在公司的数据部门工作,每天的订单类数据处理流程大致如下:删除分析数据库的历史订单数据全量更新订单数据到分析数据库。(由于订单核心数据不大,所以经受得起这么折腾)将数据简单清洗,并生成数据集市层分析处理,产出报表。当然还有其他的数据也是这么处理的(比如产品的数据、景区的数据、票种的数据、供应商的数据...
阅读全文
摘要:一、前言 当前大数据概念特别流行,其中根据数据做决策,根据数据做分析已经成为每个公司必备的能力。 二、数据抽取 随之组建数据技术团队也顺理成章的事情,数据团队从业务数据库抽取数据到自己的分析数据库,这个过程称之为:数据抽取,原因如下: 三、自然演化体系结构 随着需求的不断增加,对抽取的要求越来越多,
阅读全文
摘要:背书 随着大数据的到来,经常听到相关的词汇,维度、指标、BI、PV、UV等等,今天整理了这些词汇。 DW DW是Data Warehouse的缩写,即数据仓库。 DW要区别于普通数据库,数据仓库用于支持决策,面向分析型数据处理;而普通数据库主要服务于软件/网站,对于一致性/事物要求较高。 BI BI
阅读全文
摘要:为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个...
阅读全文