随笔分类 -  数据仓库ETL

摘要:SQL数据库中数据处理时,有时候需要建立临时表,将查询后的结果集放到临时表中,然后在针对这个数据进行操作。 创建“临时表”(逻辑上的临时表,可能不一定是数据库的)的方法有一下几种: 1.with tempTableName as方法(05之后出现): with temptable as 其实并没有建 阅读全文
posted @ 2020-11-19 11:18 MRO物料采购服务 阅读(2194) 评论(0) 推荐(0) 编辑
摘要:一直以来都很少使用sql中的with语句,但是看到了一篇文章中关于with的使用,它的确蛮好用,希望以后记得使用这个语句。一、with 的用法With alias_name as (select1)[,alias_namen as (select n) ]--中括号可以省略Select ….举例,如 阅读全文
posted @ 2020-11-19 11:08 MRO物料采购服务 阅读(16167) 评论(0) 推荐(0) 编辑
摘要:0x00 前言 最近很多小伙伴在群里或者私聊问居士这么一个问题:“数据团队的职责到底是什么?” 同样都是数据组,不同公司或者说同一个公司不同团队的小伙伴有不同的遭遇: 有的小伙伴天天配置报表~ 有的小伙伴总是不停地写Sql排查数据问题~ 有的小伙伴要不停地写PPT汇报 有的小伙伴会耍一些模型 这里面 阅读全文
posted @ 2020-11-19 10:10 MRO物料采购服务 阅读(1085) 评论(0) 推荐(0) 编辑
摘要:简介:本文由网易云音乐实时计算平台研发工程师岳猛分享,主要从以下四个部分将为大家介绍 Flink + Kafka 在网易云音乐的应用实战: 背景 Flink + Kafka 平台化设计 Kafka 在实时数仓中的应用 问题 & 改进 直播回放:https://developer.aliyun.com 阅读全文
posted @ 2020-10-31 11:48 MRO物料采购服务 阅读(840) 评论(1) 推荐(0) 编辑
摘要:分享嘉宾:王琛@神策数据 编辑整理:冯露 出品平台:DataFunTalk 导读:用户画像是建立在数据基础之上的用户模型,是产品改进、精准营销等业务场景中不可或缺的重要基础。而构建用户画像的过程就是要给用户打上各种维度的标签,并基于标签进行定性或定量分析。这其中,建设灵活、全面、高效的标签体系是工作 阅读全文
posted @ 2020-10-22 17:07 MRO物料采购服务 阅读(3609) 评论(0) 推荐(0) 编辑
摘要:来自公众号:IT牧场 EXPLAIN作为MySQL的性能分析神器,读懂其结果是很有必要的,然而我在各种搜索引擎上竟然找不到特别完整的解读。都是只有重点,没有细节(例如type的取值不全、Extra缺乏完整的介绍等)。 所以,我肝了将近一个星期,整理了一下。这应该是全网最全面、最细致的EXPLAIN解 阅读全文
posted @ 2020-10-22 16:13 MRO物料采购服务 阅读(420) 评论(0) 推荐(0) 编辑
摘要:1 Flink介绍 Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。 1.1部署模式 Flink 集群的部署,本身不依赖 Hadoop 集 阅读全文
posted @ 2020-10-22 15:09 MRO物料采购服务 阅读(1179) 评论(0) 推荐(0) 编辑
摘要:正文开始 一、什么是数据治理? 维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。 笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据 阅读全文
posted @ 2020-10-22 14:15 MRO物料采购服务 阅读(1642) 评论(0) 推荐(0) 编辑
摘要:文章来源 https://blog.csdn.net/yehongzhi1994/article/details/108034330 思维导图 前言 在很多业务情况下,我们都会在系统中加入redis缓存做查询优化。 如果数据库数据发生更新,这时候就需要在业务代码中写一段同步更新redis的代码。 这 阅读全文
posted @ 2020-10-22 13:39 MRO物料采购服务 阅读(1698) 评论(1) 推荐(0) 编辑
摘要:本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL 标准化、快速响应变化、数据统一为目标。 在实践中,我们总结的最佳实践是:一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易于开发、易于维护、效率最高 阅读全文
posted @ 2020-10-14 09:11 MRO物料采购服务 阅读(261) 评论(0) 推荐(0) 编辑
摘要:Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig 阅读全文
posted @ 2020-10-12 11:03 MRO物料采购服务 阅读(522) 评论(0) 推荐(0) 编辑
摘要:首先理清hive和hbase的概念吧: 1、hive是什么? hive可以认为是map-reduce的一个包装。 hive的意义就是把好写的hive的sql(也叫hql)转换为复杂难写的map-reduce程序,从而降低使用Hadoop中使用map-reduce的难度。 Hive本身不存储和计算数据 阅读全文
posted @ 2020-10-12 10:03 MRO物料采购服务 阅读(5829) 评论(0) 推荐(1) 编辑
摘要:桔妹导读:随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。 1. 实时数仓建设目的 随着互联网的发展进 阅读全文
posted @ 2020-09-03 16:01 MRO物料采购服务 阅读(676) 评论(0) 推荐(0) 编辑
摘要:简述otter是一个基于canal的数据同步平台,含义是水獭,主要的功能就是可以将mysql的数据同步至另外mysql或者oracle,在项目中应用场景主要是多数据中心、BI系统抽取数据、灾备。另外也支持双向同步(即A库同步给B库,B库也同步给A库)、文件同步,不过目前笔者这还没用到。简单就可以理解 阅读全文
posted @ 2020-06-22 14:27 MRO物料采购服务 阅读(1563) 评论(0) 推荐(0) 编辑
摘要:数据同步工具otter(一)谈谈binlog和canal之前因为懒,没有针对otter做更多的解释和说明,在使用过程中,也发现了一些问题,此次补上一个完整的文档,方便大家使用。Otter是基于cannal开源的,canal又是基于mysql binlog的产品。我们就从binlog说起binlogm 阅读全文
posted @ 2020-06-22 14:24 MRO物料采购服务 阅读(1847) 评论(0) 推荐(0) 编辑
摘要:1 需求 在同一台服务器同一MySQL实例中的source库和target库都存在student表。如果source库中该表发生增删改操作时,也需要体现到target库的student表中; 2 解决方案 2.1 方案一:使用Shell脚本实现 由于自己缺少使用Shell编程的经验,此路暂时不通; 阅读全文
posted @ 2020-06-22 14:13 MRO物料采购服务 阅读(2267) 评论(0) 推荐(0) 编辑
摘要:目录 一、Otter简介 二、Otter目前支持了什么 三、Canal & Otter 的一些注意事项 四、otter单向同步搭建测试 1. 环境准备 2. Manager使用(任务配置整个流程) 配置完整流程 3. 过程问题整理 3.1 Problem accessing /channelList 阅读全文
posted @ 2020-06-22 14:11 MRO物料采购服务 阅读(1918) 评论(0) 推荐(0) 编辑
摘要:什么是数据仓库 数据仓库(DW)是一个收集和管理不同来源的数据,以提供有意义的业务洞察力的过程。数据仓库通常用于连接和分析来自不同来源的业务数据。数据仓库是商业智能系统的核心,它是为数据分析和报告而建立的。 数据仓库系统也被称为以下名称。 决策支持系统(DSS) 执行信息系统 管理信息系统 商业智能 阅读全文
posted @ 2020-06-15 17:55 MRO物料采购服务 阅读(1225) 评论(0) 推荐(0) 编辑
摘要:背景: kettle,连接MySQL数据库,我想把查询出来的结果excel输出到本地。结果其他字段都可正常导出,唯独日期类型导出为空。 最终解决办法:查询结果在输出之前要转换成文本或字符串类型。如果使用SQL写的表输入步骤,可以在SQL里做字段类型转换。如我的修改为: 需要将日期进行字符串转换 da 阅读全文
posted @ 2020-05-25 11:07 MRO物料采购服务 阅读(1083) 评论(0) 推荐(0) 编辑
摘要:Kettle无法直接连接使用SSH通道的MySQL,需要借助工具PuTTY。下载地址为:https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html。 一、打开PuTTY,点击SSH下Tunnels,在右边Source port输入50 阅读全文
posted @ 2020-05-14 13:53 MRO物料采购服务 阅读(1021) 评论(0) 推荐(0) 编辑