上一页 1 2 3 4 5 6 7 8 ··· 12 下一页
摘要: 走过2010年,回首走过的一年,全部精力投入到了数据平台的建设过程中,在不断的探索、尝试中探索一条适合数据仓库发展之路的数据模型建设方法;作为数据平台建设的主要驱动人,与团队一起完成数据平台基础数据模型(宽表层)的搭建,应用迁移、实现应用项目在新的数据模型上实施。在建设的过程中,有过困惑、走过弯路, 阅读全文
posted @ 2016-12-02 10:37 无尽的缥缈 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 前面讲了下3范式。 http://www.cnblogs.com/wujin/p/6098676.html 在这里简单的介绍下BCNF,四范式,五范式 BCNF 也叫作3.5范式。 主要是任何属性都不能依赖于非主属性。 第三范式的基础上,第三范式是非主属性只能依赖于主属性,所以也就是主属性不能依赖于 阅读全文
posted @ 2016-12-01 19:32 无尽的缥缈 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。 拉链表适用于以下几种情况吧 数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实, 不仅浪费了存储空间,有时可能业务统计 阅读全文
posted @ 2016-12-01 14:24 无尽的缥缈 阅读(22768) 评论(2) 推荐(1) 编辑
摘要: awk 有时确实比较省事,做些简单的文本处理,还是很方便的,在这介绍下两个文件的join的操作。 原始文本 bb.txt cc.txt awk join主要是用到连个内置的变量 NR,FNR,先看这的区别 NR是读取所有的行号 FNR读取每个文件的行号索引号,当文件发生变化时,FNR从1开始计算 当 阅读全文
posted @ 2016-11-30 14:06 无尽的缥缈 阅读(1499) 评论(0) 推荐(0) 编辑
摘要: 此文来自于https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/ 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库 阅读全文
posted @ 2016-11-29 15:48 无尽的缥缈 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 数仓模型是非常重要的,模型中键又是重中之重。 今天简单讨论一下键。 候选键包含主键 和可选建,主键可以作为其它表的外键。 主键的生成方式分为两类:自然键和代理键。 主键都比较好懂,就是唯一键,重点说一下自然键和代理键。 自然键和代理键的有啥区别呢? 自然键是已经真实存在的键,通常具有商业意义,比如e 阅读全文
posted @ 2016-11-26 23:36 无尽的缥缈 阅读(1595) 评论(0) 推荐(0) 编辑
摘要: 范式虽然在工作中没有很明确的用到,但是作为一个搞数据的人,时时刻刻在用着范式,虽然心里懂,但是每次别人问,都感觉说不出来的样子,为了加强进一步的理解,在这里简单的记录一下。 有一句话概括了3范式,比较容易理解,每一个非健值属性必须依赖于健,依赖于整个健而不是健的一部分,并且不依赖于其它非健值属性。 阅读全文
posted @ 2016-11-24 17:26 无尽的缥缈 阅读(1097) 评论(1) 推荐(0) 编辑
摘要: hive中有桶的概念,对于每一个表或者分区,可以进一步组织成桶,说白点,就是更细粒度的数据范围。hive采用列值哈希,然后除以桶的个数以求余的方式决定该条记录存放在哪个桶当中。使用桶的好处:1、获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个 阅读全文
posted @ 2016-11-23 14:02 无尽的缥缈 阅读(2868) 评论(1) 推荐(1) 编辑
摘要: 两表join在业务开发中是经常用到,了解了大数据join的原理,对于开发有很大的好处。 1、reduce side join reduce side join是一种简单的join的方法,具体思想如下: 顾名思义就在reduce进行join, 在map阶段,map同时读取两文件file1,file2, 阅读全文
posted @ 2016-11-22 14:53 无尽的缥缈 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 说起数据仓库,肯定得提到建模,建模就必须得知道一些基本的概念。 1、实体 实体顾名思义就是真实的东西,因为建模就是把实际的东西通过数据模型表达出来,所以呢实体通常是名词,比如人,商店,房间等,都可以是实体。 实体对应到数据库中呢,就是一张表。一般通过一张表来描述一份实体。 实体呢也有很多分类,通常情 阅读全文
posted @ 2016-11-21 21:49 无尽的缥缈 阅读(307) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 12 下一页