随笔分类 -  大数据

摘要:一、edits 文件 一)文件组成 一个edits文件记录了一次写文件的过程,该过程被分解成多个部分进行记录;(每条记录在hdfs中有一个编号) 每一个部分为: '<RECORD>...</RECORD>' ; 每一部分包含了:'<OPCODE> ... </OPCODE>' 和 '<DATA> . 阅读全文
posted @ 2020-10-22 14:24 何永灿 阅读(844) 评论(0) 推荐(0) 编辑
摘要:一、数据质量保障原则 如何评估数据质量的好坏,业界有不同的标准,阿里主要从 4 个方面进行评估:完整性、准确性、一致性、及时性; 1、完整性2 数据完整性是数据最基础的保障; 完整性:指数据的记录和信息是否完整,是否存在缺失的情况; 数据缺失:主要包括记录的缺失和记录中某个字段信息的缺失; 记录的丢 阅读全文
posted @ 2020-09-14 10:49 何永灿 阅读(7257) 评论(3) 推荐(0) 编辑
摘要:数据存储和成本管理: 有效的降低存储资源的消耗,节省存储成本,是存储管理孜孜追求的目标; 一般从 4 个方面优化存储:数据压缩、数据重分布、存储治理项优化、生命周期管理; 一、数据压缩 实际中的数据存储情况:在其它分布式计算系统中,为了提高数据的可用性和性能,通常会将数据存储 3 份;这就意味着存储 阅读全文
posted @ 2020-09-13 09:56 何永灿 阅读(2432) 评论(0) 推荐(0) 编辑
摘要:背景: 2017 年,阿里内部 MaxCompute 集群上游 200 多万个任务,每天存储资源、计算资源消耗都很大。如何降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间,是计算平台和 ETL 开发工程师孜孜追求的目标。 一、系统优化 系统优化:通过分析计算系统的数据运行情况,判断计算系统 阅读全文
posted @ 2020-09-11 16:11 何永灿 阅读(1769) 评论(1) 推荐(0) 编辑
摘要:一、元数据概述 1、元数据定义 元数据:按传统的定义,元数据就是关于数据的数据; 元数据的用途: 打通源数据、数据仓库、数据应用,记录数据从产生到消亡的全过程; 主要记录:数据仓库中模型的定义、各层级间的映射关系、监控数据仓库中的数据状态、监控 ETL 的任务的运行状态; 在数据仓库系统中,元数据可 阅读全文
posted @ 2020-09-09 15:20 何永灿 阅读(12697) 评论(1) 推荐(0) 编辑
摘要:目录: 事实表基础 事实表特征 事实表设计原则 事实表设计方法 事务事实表 设计过程 单事务事实表 多事务事实表 两事实表对比 父子事实的处理方式 事实的设计原则 周期快照事实表 特性 实例阐述周期快照事实表设计过程 注意事项 累积快照事实表 设计过程 特点 特殊处理 物理处理 三种事实表的比较 无 阅读全文
posted @ 2020-09-09 00:00 何永灿 阅读(4301) 评论(0) 推荐(4) 编辑
摘要:目录: 维度设计基础 维度的基本概念 维度的基本设计方法 维度的层次结构 规范化和反规范化 一致性维度和交叉探查 维度设计高级主题 维度整合 水平拆分 垂直拆分 历史归档 维度变化 缓慢变化维 快照维表 极限存储 微型维度 特殊维度 递归层次 行为维度 多值维度 多值属性 杂项维度 数据岗位工作:了 阅读全文
posted @ 2020-09-06 16:53 何永灿 阅读(2942) 评论(0) 推荐(0) 编辑
摘要:面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和 阅读全文
posted @ 2020-09-02 16:29 何永灿 阅读(3482) 评论(2) 推荐(0) 编辑
摘要:一、为什么需要建立数据模型 数据模型是组织和存储数据的方法; 适合业务和基础数据存储环境的模型,具有以下几点好处: 性能:快速查询所需要的数据,减少数据的 I/O 吞吐; 成本:减少不必要的数据冗余,实现计算结果复用,降低数据系统中的存储和计算成本; 效率:改善用户使用数据的体验,提高使用数据的效率 阅读全文
posted @ 2020-09-01 15:50 何永灿 阅读(3360) 评论(0) 推荐(0) 编辑
摘要:参考:数据仓库3NF基础理论和实例 博主:张子良 参考:数据库三范式 博主:五月的仓颉 我都不知道自己在说什么 一、1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 一个属性列,每条记录中不能有多个值 / 字段; 阅读全文
posted @ 2020-09-01 15:48 何永灿 阅读(976) 评论(0) 推荐(0) 编辑
摘要:一、简介 一般业务诉求:在第一时间拿到经过加工后的数据,以便实时监控当前业务状态并作出运营决策,引导业务往好的方向发展。 按照数据的延时情况,数据时效性一般分为三种(离线、准实时、实时): 离线:在今天(T)处理 N 天前(T - N ≥ 1)的数据,延迟时间粒度为天; 准实时:在当前小时(H)处理 阅读全文
posted @ 2020-07-30 17:39 何永灿 阅读(3774) 评论(1) 推荐(0) 编辑
摘要:从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的; 面对海量的数据和复杂的计算,阿里的数据计算层包括两大体系:数据存储及计算平台(离线计算凭他 MaxCompute、实时计算平台 StreamCompu 阅读全文
posted @ 2020-07-30 09:55 何永灿 阅读(2917) 评论(0) 推荐(0) 编辑
摘要:概述 数据同步场景类型: 主数据库与备份数据库之间的数据备份; 主系统与子系统间的数据更新; 属于同类型不同集群数据库间的数据同步; 不同区域、不同数据库类型间的数据传输交换; 大数据系统:数据从业务系统同步进入数据仓库、数据从数据仓库同步进入数据服务或者数据应用。(本篇主讲数据从业务系统同步进入数 阅读全文
posted @ 2020-07-26 12:21 何永灿 阅读(4790) 评论(1) 推荐(0) 编辑
摘要:一、概述 数据采集渠道:主要采集 Web 端和 App 端日志数据; 数据加工分层理念:操作数据层(Operational Data Store ,ODS)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)、应用数据 阅读全文
posted @ 2020-07-25 16:19 何永灿 阅读(2439) 评论(0) 推荐(0) 编辑
摘要:一、数据库分类 数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。 以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。 ⑴ 物理数据层。 它是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数 阅读全文
posted @ 2018-04-17 15:58 何永灿 阅读(1007) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示