随笔分类 -  数据仓库ETL

摘要:过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。本文将分享严选的数据湖建设过程和思考。 1. 业务背景 网易严选在 2017 年中开始搭建自己的大数据体系,如 阅读全文
posted @ 2023-03-27 16:43 MRO物料采购服务 阅读(212) 评论(0) 推荐(0) 编辑
摘要:随着银行业务规模和交易数量的增长,为了实现全行统一的数据存储及分析,各商业银行普遍实施了以Teradata、GreenPlum等为代表的中高端数据仓库系统项目,通过汇总银行内部各交易系统的数据,并根据数据标准化要求,进行清洗、转换,最终统一存储用于行内数据统计与分析。 但近几年,面对互联网金融的挑战 阅读全文
posted @ 2021-12-06 14:32 MRO物料采购服务 阅读(411) 评论(0) 推荐(0) 编辑
摘要:本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线 阅读全文
posted @ 2021-09-09 12:09 MRO物料采购服务 阅读(143) 评论(0) 推荐(0) 编辑
摘要:商品知识图谱作为新零售行业数字化的基石,提供了围绕商品的精准结构化理解,对业务应用起到了至关重要的作用。相比于美团大脑中原有的围绕商户的图谱而言,商品图谱需应对更加分散、复杂、海量的数据和业务场景,且面临着信息来源质量低、数据维度多、依赖常识以及专业知识等挑战。本文将围绕零售商品知识图谱,介绍美团在 阅读全文
posted @ 2021-09-09 11:25 MRO物料采购服务 阅读(757) 评论(0) 推荐(0) 编辑
摘要:一 产品思维是什么? 作为一线的开发人员,大家是不是都经历过和产品吵得不可开交的经历,甚至最后谁也无法说服谁,只能将问题上升。最后由老板出面解决,而大多数情况下老板还真能够以某种方法去解决,并且是一个双方都能接受的方案。这个时候可能大部分同学会认为是老板的权威,地位导致了这一结果。其实这很不准确(可 阅读全文
posted @ 2021-09-09 11:09 MRO物料采购服务 阅读(121) 评论(0) 推荐(0) 编辑
摘要:过去几十年,BI经历了从工具到“决策大脑”的角色转变,而未来一定是向“智能决策大脑”转型,也就是“AI+BI”。未来5年,BI不会只停留在对历史数据的多维统计。 当很多人还不知道BI(商业智能)是什么的时候,其实就已经做过BI整条链路里的相关工作。 BI具体做什么? 通俗点理解,就是从数据接入、数据 阅读全文
posted @ 2021-09-09 10:14 MRO物料采购服务 阅读(521) 评论(0) 推荐(0) 编辑
摘要:1、为什么要分层 在未分层的情况下,数据之间的耦合性与业务耦合性是不可避免的,当源业务系统的业务规则发生变化时,可能影响整个数据的清洗过程。这就好比把衬衫、裤子、袜子、外套分类存放整理 就比 打散之后不分类的整理哪一种更让人舒服,更容易找呢? 2、分层的好处 数据分层简化了数据清洗的过程,每一层的逻 阅读全文
posted @ 2021-09-08 13:42 MRO物料采购服务 阅读(676) 评论(0) 推荐(0) 编辑
摘要:一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。 星型架构 阅读全文
posted @ 2021-09-08 11:21 MRO物料采购服务 阅读(634) 评论(0) 推荐(0) 编辑
摘要:TOGAF中文网 https://www.togaf9.cn 在《年度总结和计划:去年4个1,今年5个1》中说过今年我准备在项目组引入一个架构方TOGAF。工业和信息化部副部长杨学山在一次内部座谈时提到:与西方发达国家比,国内的信息化建设在硬件方面已经不相上下,在软件方面有5年的差距,在信息化管理方 阅读全文
posted @ 2021-09-08 10:53 MRO物料采购服务 阅读(2094) 评论(0) 推荐(0) 编辑
摘要:众多企业管理者都将“数字化转型”视为战略核心,那么“数字化转型”应该已经有了一个清晰的概念才对,但实际上却并非如此。经过笔者多方收集,似乎大家对“数字化转型”都有自己的理解。 一、咨询公司的理解 (一)埃森哲观点 埃森哲的研究团队认为,数字化转型的最显著特征就是通过数字化应用提升运营效率。中国各行业 阅读全文
posted @ 2021-09-06 12:07 MRO物料采购服务 阅读(926) 评论(0) 推荐(0) 编辑
摘要:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 2019年3月15日ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到 阅读全文
posted @ 2021-08-31 11:31 MRO物料采购服务 阅读(138) 评论(0) 推荐(0) 编辑
摘要:数据仓库不同于日常的信息系统开发 , 除了遵循其他系统开发的需求 , 分析 , 设计 , 测试等通常的软件声明周期之外 ; 他还涉及到企业信息数据的集成 , 大容量 数据的阶段处理和分层存储 , 数据仓库的模式选择等。 一、业务驱动 任何需求均来源于业务 , 业务决定了需求 , 需求分析的正确与否是 阅读全文
posted @ 2021-08-31 10:45 MRO物料采购服务 阅读(248) 评论(0) 推荐(0) 编辑
摘要:当SQL数据库日志文件已满,或者日志很大,怎么办 当SQL数据库日志文件已满,或者日志很大,就需要压缩日志及数据库文件:1.清空日志 DUMP TRANSACTION 库名 WITH NO_LOG 2.截断事务日志: BACKUP LOG 数据库名 WITH NO_LOG3.收缩数据库文件(如果不压 阅读全文
posted @ 2021-08-20 14:22 MRO物料采购服务 阅读(18061) 评论(1) 推荐(0) 编辑
摘要:sqlserver自动收缩数据库引起大量阻塞 最近遇到一个数据库设置了自动收缩,收缩期间引起大量阻塞的问题,记录下看到的文章学习 什么是自动收缩? 随着数据量的增加数据库的设备文件(MDF\LDF)会不断增长,当数据库中的某些数据删除,数据库设备文件的大小并不会随着数据量的减少而减少,数据库设备需要 阅读全文
posted @ 2021-08-18 16:17 MRO物料采购服务 阅读(5286) 评论(0) 推荐(0) 编辑
摘要:一、MySQL扩展具体的实现方式 随着业务规模的不断扩大,需要选择合适的方案去应对数据规模的增长,以应对逐渐增长的访问压力和数据量。 关于数据库的扩展主要包括:业务拆分、主从复制,数据库分库与分表。这篇文章主要讲述数据库分库与分表 (1)业务拆分 在 大型网站应用之海量数据和高并发解决方案总结一二  阅读全文
posted @ 2021-08-17 11:22 MRO物料采购服务 阅读(919) 评论(0) 推荐(0) 编辑
摘要:kettle 3.2 以前的版本里只有 variable 和 argument,kettle 3.2 中,又引入了 parameter 概念;variable 即environment variables(环境变量或全局变量),即使是不同的转换它们也拥有同样的值;而argument(位置参数)和pa 阅读全文
posted @ 2021-08-17 08:43 MRO物料采购服务 阅读(5815) 评论(0) 推荐(2) 编辑
摘要:一 为什么要做这个事情1 什么是慢SQL?这里指的是MySQL慢查询,具体指运行时间超过long_query_time值的SQL。我们常听常见的MySQL中有二进制日志binlog、中继日志relaylog、重做回滚日志redolog、undolog等。针对慢查询,还有一种慢查询日志slowlog, 阅读全文
posted @ 2021-08-10 10:10 MRO物料采购服务 阅读(335) 评论(0) 推荐(0) 编辑
摘要:今天和大家聊一个老生常谈的话题,如何设计DWS层? 对于数仓的分层,想必大家都不陌生。基于OneData方法论的三层数仓划分:数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimenions Model)和数据应用层(ADS,Applicati 阅读全文
posted @ 2021-08-09 17:45 MRO物料采购服务 阅读(643) 评论(0) 推荐(0) 编辑
摘要:本文是雷剑波大佬对网易云音乐数仓建设之路的介绍,大家可以参考借鉴学习下,文末有PPT和对应视频的获取方式。 阅读全文
posted @ 2021-08-09 17:44 MRO物料采购服务 阅读(348) 评论(0) 推荐(0) 编辑
摘要:01 什么是标签标签指从原数据加工而来,能够直接为业务所用并产生业务价值的数据载体。从本质上讲,标签本身也是一种数据(或映射指向数据),它是对物理层数据信息项的业务化封装,是数据资产的一种良好组织形式,是一种概念、逻辑定义,因此标签必须是可阅读、易理解的。从粒度上来讲,标签往往映射为某一对象的属性, 阅读全文
posted @ 2021-07-12 10:17 MRO物料采购服务 阅读(911) 评论(0) 推荐(0) 编辑