随笔分类 -  数据仓库ETL

摘要:前面已经讲过定时同步,就不说了,直接说并行执行。 1.创建一个作业,建立好需要的多个转换 2.如图所示:将start-转换-成功 连接在一起 3.右击start,点击RUN NEXT。。。OK这样就能并行执行了! 阅读全文
posted @ 2020-05-14 12:09 MRO物料采购服务 阅读(5889) 评论(0) 推荐(0) 编辑
摘要:这是坚持技术写作计划(含翻译)的第26篇,定个小目标999,每周最少2篇。 最近工作需要,需要从Oracle导数据到Mysql,并且需要进行适当的清洗,转换。数据量在5亿条左右,硬件环境为Winserver 2008R2 64位 ,64G,48核,1T hdd,kettle是8.2,从Oracle( 阅读全文
posted @ 2020-05-13 20:11 MRO物料采购服务 阅读(7548) 评论(0) 推荐(0) 编辑
摘要:Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT由于组件涉及非常多,我这就只举例几个常用的组件来进行介绍。需要了解全部组件下载Kettle用户手册下载 本弹给大家详细说明的组件:表输入、获取系统信息、表输出、字符选择、过滤记录、执行SQL语句、设置变量、获取变量 表输入(Table 阅读全文
posted @ 2020-05-09 18:24 MRO物料采购服务 阅读(1800) 评论(0) 推荐(0) 编辑
摘要:需求: 做数据仓库时,需要将业务系统CRM抽取到数据仓库的缓冲层,业务系统使用的是SqlServer数据库,数据仓库的缓冲层使用的是mysql数据库,为实现数据库的迁移,即将SqlServer数据库中的所有表与数据迁移到Mysql。 解决办法一:利用kettle的复制多表复制向导 过程如下: 1、选 阅读全文
posted @ 2020-05-09 17:48 MRO物料采购服务 阅读(1271) 评论(0) 推荐(0) 编辑
摘要:前言Kettle控件分为三种:转换控件、作业控件和Hop(跳)。转换控件输入控件表输入 表输入控件是从数据库的表中读取数据的控件。我们可以在表中输入SQL语句(或者通过获取SQL查询语句获取)。比如我们通过获取SQL查询语句获取到SQL语句,我们可以预览这个转换。 预览结果如下所示: 对于查询语句而 阅读全文
posted @ 2020-05-07 18:03 MRO物料采购服务 阅读(3637) 评论(0) 推荐(0) 编辑
摘要:Hadoop的下载和安装 一:Hadoop的简介 Apache的Hadoop是一个开源的、可靠的、可扩展的系统架构,可利用分布式架构来存储海量数据,以及实现分布式的计算。 Hadoop许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。可以从单个服务器扩展到数千台机器, 每个机器都提供本地 阅读全文
posted @ 2020-04-29 00:19 MRO物料采购服务 阅读(7794) 评论(0) 推荐(0) 编辑
摘要:本节内容: Apache Storm是什么 Apache Storm核心概念 Storm原理架构 Storm集群安装部署 启动storm ui、Nimbus和Supervisor 一、Apache Storm是什么 Apache Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据 阅读全文
posted @ 2020-04-29 00:17 MRO物料采购服务 阅读(572) 评论(0) 推荐(0) 编辑
摘要:【确保服务器集群安装和配置已经完成!】前言请根据读者的自身情况,进行相应随机应变。我的三台CentOS7服务器:主机:master(192.168.56.110)从机:slave0(192.168.56.111)从机:slave1(192.168.56.112)每一个节点的安装与配置是相同的,在实际 阅读全文
posted @ 2020-04-29 00:16 MRO物料采购服务 阅读(1698) 评论(0) 推荐(0) 编辑
摘要:摘要:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 阅读全文
posted @ 2020-04-10 14:28 MRO物料采购服务 阅读(607) 评论(0) 推荐(0) 编辑
摘要:前言 Kettle是一款开源的、易上手的ETL工具,拥有良好的图形化界面供开发者使用。服务器由于需要不间断地运行Kettle,有时会造成内存过高,甚至会报错退出。因此决定使用命令行调用kettle的转换.ktr或作业.kjb可以弥补这一缺憾。 两种方式个人总结 今天介绍相对特殊的命令行方式,以下操作 阅读全文
posted @ 2020-04-08 16:10 MRO物料采购服务 阅读(1830) 评论(0) 推荐(0) 编辑
摘要:摘要:本文主要讨论一些在ETL中设计增量更新的方法和技巧。 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论 阅读全文
posted @ 2020-04-08 14:05 MRO物料采购服务 阅读(3262) 评论(0) 推荐(0) 编辑
摘要:转换 转换(transformtion)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各阶段各种对数据的操作。 转换包括一个或多个步骤(step),如读取文件、过滤输出行、数据清洗或将数据加载到数据库。 转换里的步骤通过跳(hop)来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤 阅读全文
posted @ 2020-04-08 10:05 MRO物料采购服务 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:小尝试:基于指标体系的数据仓库搭建和数据可视化 关于作者:小姬,某知名互联网公司产品专家,对数据采集、生产、加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,发觉商业价值。 0x00 前言 我将整理文章分享数据工作中的经验,因为业务内容上的差异,可能导致大家的理解不一致,无法体会到 阅读全文
posted @ 2019-11-07 15:00 MRO物料采购服务 阅读(1732) 评论(0) 推荐(0) 编辑
摘要:Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。 Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据 阅读全文
posted @ 2019-09-19 11:00 MRO物料采购服务 阅读(5133) 评论(0) 推荐(1) 编辑
摘要:下面的随笔中将讲述SSIS中的高级转换任务,和老旧的SQL Server 2000 DTS相比,我们会发现现在以前的dark-arrow,data-pump任务没有了。在转换任务中隐藏ActiveX脚本和嵌入连接字符的方法也被去除了。在将Package指向不同的数据库的时候也不会忘记修改转换对象,在 阅读全文
posted @ 2019-01-30 13:54 MRO物料采购服务 阅读(1065) 评论(0) 推荐(0) 编辑
摘要:很多程序员,不止.net程序员都有可能会用到SSIS包来处理一些数据流程上的任务。可以说SSIS作为BI下的一个ETL工具,方便易学,而且功能也确实很强大。于是开发OLTP的同事总会到我们这边寻求技术上的支持,更多的时候会问我,当一个SSIS包开发完成之后,都有哪几种方式可以让它运行起来。一直以来我 阅读全文
posted @ 2019-01-29 17:44 MRO物料采购服务 阅读(3885) 评论(0) 推荐(0) 编辑
摘要:一 、建立cdc记录表用于每次增量的时间节点 create table dbo.cdc_capture_log ( cdc_capture_log_id int identity not null , capture_instance nvarchar(50) not null , start_ti 阅读全文
posted @ 2019-01-29 17:43 MRO物料采购服务 阅读(963) 评论(0) 推荐(0) 编辑
摘要:在本课中,将修改在第 5 课: 添加包部署模型的包配置中创建的包,以便使用项目部署模型。您将使用一个参数替换该配置值,以便指定示例数据位置。还可以复制本教程附带的已完成的 Lesson 5 包。 使用 Integration Services 项目配置向导,您将该项目转换为项目部署模型,并且使用参数 阅读全文
posted @ 2019-01-07 15:09 MRO物料采购服务 阅读(329) 评论(0) 推荐(0) 编辑
摘要:包配置允许您从开发环境的外部设置运行时属性和变量。 配置允许您开发灵活且易于部署和分发的包。Microsoft Integration Services 提供了以下配置类型: XML 配置文件 环境变量 注册表项 父包变量 SQL Server 表 Step 1: 复制第 4 课包 Step 2: 阅读全文
posted @ 2019-01-07 15:08 MRO物料采购服务 阅读(263) 评论(0) 推荐(0) 编辑
摘要:为了处理在转换过程中可能发生的错误,MicrosoftIntegration Services 允许根据每个组件和每个列来决定如何处理无法转换的数据。 可以选择忽略某些列中的失败、重定向整个失败的行或者只是使组件失败。 默认情况下,Integration Services 中的所有组件被配置为在发生 阅读全文
posted @ 2019-01-07 15:07 MRO物料采购服务 阅读(406) 评论(0) 推荐(0) 编辑