大数据之路:阿里巴巴大数据实践小记

1.出于吞吐量以及系统压力上的考虑,并不是新增一条数据记录就采集一次,而是几句下面的原则,按照批次对数据进行采集

数据大小限制:当达到限制条件的时候,把目前采集到的新数据作为一批(例如512kb写一批)

时间阈值限制:当时间达到一定条件的时候,也会把目前采集到的新数据作为一批,避免在数据量少的情况下一直不采集(例如30秒写一批)

只要上面的其中一个条件达到了,就会被作为一批新数据采集到数据中间件中。这两个条件的参数需要根据业务的需求来设定。

2.数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用交毒合理存储数据。

一个好的模型 在性能 成本 效率 质量上都有好处

3.名词术语解释

修饰词指的是除了统计维度以外指标的业务场景限定抽象,修饰词隶属于一种修饰类型,如在日志域的访问终端类型下,有修饰词PC端、无线端等

原子指标基于某一个业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额

维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理纬度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)

派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度,而不作修饰词)

4.维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。数据仓库的能力直接与维度属性的质量和深度成正比

关于SPU和SKU的区别

类目:类目是一个树状结构的系统,大体上可以分成4-5级。如手机->智能手机->苹果手机类目,在这里面,手机是一级类目,苹果手机是三级类目,也是叶子类目。

SPU:苹果6(商品聚合信息的最小单位),如手机->苹果手机->苹果6,苹果6就是SPU。

SKU:土豪金 16G 苹果6 (商品的不可再分的最小单元)。

从广义上讲,类目>SPU>SKU。

作者:eric.zheng
链接:https://www.zhihu.com/question/29073730/answer/156354485
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
5.当属性层次被实例化为一系列维度,而不是单一的维度时,被称为雪花模型
雪花模型

 

 6.数据仓库是一个面向主题的,集成的,非易失的且随着时间变化的数据集合,用来支持管理人员的决策。

事实表中的一条记录所表达的业务细节程度被称为粒度,通常粒度可以通过两种方式来表达,一种是维度属性组合所表达的细节程度,一种是所表达的具体业务含义。

7.元数据的质量直接影响到数据管理的准确性,如何把元数据建设好将起到至关重要的作用。元数据建设的目标是打通数据接入到加工,再到数据消费整个链路。

8.评估数据质量的好坏,完整性 准确性 一致性和及时性

完整性:指的是数据的记录和信息是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失和记录中某一个字段信息的缺失,订单数某天突然下降由原来的100万到1万

准确性:指的是数据中记录的信息和数据是否准确,是否存在异常或者错误的信息  订单收获金额为负值,或者下单时间再公司成立之前

一致性:指的是一般体现在跨度很大的数据仓库体系中,数据仓库中,对于同一份数据,必须保证一致性,例如用户ID,从在线业务库加工到数据仓库,再到各个消费节点,必须都是同一种类型,长度也需要保持一致。

及时性:指的是在确保数据的完整性 准确性和一致性后,接下来就是要保证数据能够及时产出,这样才能体现出数据的价值

 

posted @ 2020-12-22 13:48  无敌小阿没  阅读(379)  评论(0编辑  收藏  举报