文章分类 -  ETL

ETL
摘要:上一篇“平面文件”的经验中,我们讲到了如果通过平面文件的方式全量的迁移数据!但是实际使用中,我们一般是增量的做同步。这里我们介绍下,如果通过时间字段,来批量的实现数据增量同步! 新建一个转换,获取时间范围 将时间赋值到环境变量 再新建一个转换,用于获取需要同步的表以及对应的数据区间条件后保存到结果中 阅读全文
posted @ 2022-01-12 18:19 KJXY 阅读(265) 评论(0) 推荐(0)
摘要:For 循环的用法不可缺少就3个条件:初始值,增长最大值,递增值。1. 设计控制流如下:【脚本任务】放到【For 循环容器】里面 2. 新建一个整型变量 3. 设置【For 循环容器】:InitExpression :提供初始化该循环所用值的表达式(可选)。EvalExpression :提供用于计 阅读全文
posted @ 2021-07-23 15:20 KJXY 阅读(590) 评论(0) 推荐(0)
摘要:需求就是 记录文件夹下文件的大小,并输入到数据库 外边是一个foreach循环容器,循环遍历该文件夹下的zip文件。 执行进程任务中输入参数是 单个文件名字,输出参数为文件大小 记录压缩包信息 就是将文件名字和大小记录到数据库。 获取所有压缩包: 执行进程任务: 表达式中为输入参数: 执行SQL任务 阅读全文
posted @ 2021-07-16 17:12 KJXY 阅读(208) 评论(0) 推荐(0)
摘要:维度的每一个属性都有KeyColumns,NameColumn和ValueColumn 1,如何理解KeyColumns,NameColumn和ValueColumn?对一行记录有不同的标识列,但标识的是同一行记录。 对于int类型,占用存储空间小,容易聚合,适合做primary key,但是不易阅 阅读全文
posted @ 2021-07-05 16:34 KJXY 阅读(251) 评论(0) 推荐(0)
摘要:维度 维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以 阅读全文
posted @ 2021-07-05 16:04 KJXY 阅读(860) 评论(0) 推荐(0)
摘要:首先说一下概念,缓慢变化维(Slowly Changing Dimensions)指的是:维度表里面的数据并非是始终不变的,总会随着时间发生变化: 假设我们有一张我们公司的销售员维度表如下,记录了每个销售员的一些基本信息,那么随着时间的变化销售员可能会在各省公司间调岗,如将周杰伦调入北京分公司,针对 阅读全文
posted @ 2021-07-05 15:56 KJXY 阅读(146) 评论(0) 推荐(0)
摘要:I have a SSIS Package, in which I want to execute a batch script. Thing is that it all runs smooth when I execute it manually in the package itself. H 阅读全文
posted @ 2021-06-02 18:50 KJXY 阅读(182) 评论(0) 推荐(0)
摘要:I deployed ssis package on sql server 2012. Thereafter scheduled a sql job to run this ssis package weekly. When I started a job for the first time, i 阅读全文
posted @ 2021-06-01 17:56 KJXY 阅读(820) 评论(0) 推荐(0)
摘要:一、数据仓库建模的意义 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。 数据模型就是数据组织和存储 阅读全文
posted @ 2021-05-07 14:23 KJXY 阅读(299) 评论(0) 推荐(0)
摘要:参数语法:[/-]name [[:=]value]参数以斜线(/)或者横线(-)开头,后面跟参数名称。大部分参数后面都要有参数值。参数和参数值之间用冒号(:)或者(=)连接,参数值里面如果有空格,参数值必须用单引号或双引号引起来。Kitchen和Pan共有的参数如下:参数名 参数含义 作用norep 阅读全文
posted @ 2021-05-06 17:22 KJXY 阅读(1260) 评论(0) 推荐(0)
摘要:掌握搭建大数据集群的方法是学习大数据技术的人需要具备的基础技能,因此我会通过接下来的三十余篇文章介绍大数据平台的搭建方法。在本文中我将向小伙伴们介绍一下搭建大数据集群需要哪些知识以及我们接下来搭建的大数据集群平台架构,让大家对平台有个总体的认识并普及一些概念。 首先我们接触的是虚拟机,及在虚拟机中安 阅读全文
posted @ 2021-04-30 17:58 KJXY 阅读(387) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-04-30 10:13 KJXY 阅读(77) 评论(0) 推荐(0)
摘要:因dw库中的item为int类型,随着数据增加,需要设置为bigint。 ssas中取的是dw库中的视图,所以更改item字段后,视图并不会随之改变,需要手动刷新一下(alter 原代码重跑)。 dw库改好之后,更改cube库的源码,即更改维度视图的字段需要删掉重新家,然后点上左上角的处理按钮。 成 阅读全文
posted @ 2021-04-28 11:09 KJXY 阅读(111) 评论(0) 推荐(0)
摘要:https://www.xiaominfo.com/categories/#Kettle%E5%AE%9E%E6%88%98 阅读全文
posted @ 2021-04-22 13:38 KJXY 阅读(53) 评论(0) 推荐(0)
摘要:一 数据仓库的概念 1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 阅读全文
posted @ 2021-04-06 18:02 KJXY 阅读(256) 评论(0) 推荐(0)
摘要:一.JDBC(Java DataBase Connectivity standard) 1.JDBC,它是一个面向对象的应用程序接口(API), 通过它可访问各类关系数据库。 2. 驱动程序(JDBC driver) 要通过JDBC来存取某一特定的数据库,必须有相应的JDBC driver,它往往是 阅读全文
posted @ 2021-03-31 14:20 KJXY 阅读(1620) 评论(0) 推荐(0)
摘要:while [ 1 = 1 ]do if [ $(date '+%d') != 01 ]; then echo Today is not No.1 no data check break; fi if [ $(date '+%H') = 23 ]; then echo No Data Until 2 阅读全文
posted @ 2021-01-11 11:20 KJXY 阅读(155) 评论(0) 推荐(0)
摘要:如上图所示,这是由三个维度构成的一个OLAP立方体,立方体中包含了满足条件的cell(子立方块)值,这些cell里面包含了要分析的数据,称之为度量值。显而易见,一组三维坐标唯一确定了一个子立方。 多位模型的基本概念介绍:  立方体:由维度构建出来的多维空间,包含了所有要分析的基础数据,所有的聚合数 阅读全文
posted @ 2020-11-24 16:46 KJXY 阅读(1776) 评论(0) 推荐(0)
摘要:kettle每日同步作业,需要在linux上设置定时任务。 其中/home/CHN/wujunchao/schedule_member.sh的文件内容如下: #!/bin/shexport JAVA_HOME=/home/CHN/wujunchao/java/jdk1.8.0_202export C 阅读全文
posted @ 2020-11-19 15:31 KJXY 阅读(767) 评论(0) 推荐(0)
摘要:一.Kylin是什么? 我这个人不喜欢贴一大堆难懂的话,所以我不扯淡,直接和大家分享我的理解:Kylin是做大数据查询的!补充一下就是,可以帮助我们对大数据进行多维度的分析。提高查询效率。 二.Kylin架构 Kylin架构图 简单的讲解一下图片,以Hive或者Kafka作为数据源,里面保存着真实表 阅读全文
posted @ 2020-11-17 17:18 KJXY 阅读(104) 评论(0) 推荐(0)