随笔 - 597  文章 - 4  评论 - 445  阅读 - 424万

随笔分类 -  Kettle

kettle的作业和参数组件
摘要:1、大多数ETL项目都需要完成各种各样的维护工作。例如,如何传送文件;验证数据库表是否存在,等等。而这些操作都是按照一定顺序完成。 1.1)、因为转换以并行方式执行,就需要一个可以串行执行的作业来处理这些操作。一个作业包含一个或者多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳( 阅读全文
posted @ 2020-02-18 22:40 别先生 阅读(3372) 评论(0) 推荐(0) 编辑
kettle的应用组件 、流程组件、查询组件、连接组件、统计组件、映射组件、脚本组件
摘要:1、应用是转换里面的第五个分类。应用都是一些工具类。 1.1、替换NULL值就是把null转换为其它的值。NULL值不好进行数据分析 1.2、写日志主要是在调试的时候使用,把日志信息打印到日志窗口。 2、流程是转换里面的第六个分类。流程主要用来控制数据流程和数据流向。 2.1、Switch/case 阅读全文
posted @ 2020-02-18 19:38 别先生 阅读(2283) 评论(0) 推荐(1) 编辑
kettle的转换组件
摘要:1、转换是转换里面的第四个分类。转换属于ETL的T,T就是Transform清洗、转换。ETL三个部分中,T花费时间最长,是一般情况下这部分工作量是整个ETL的2/3。 2、Concat fields,就是多个字段连接起来形成一个新的字段。 3、 值映射,就是把字段的一个值映射成其他的值。在数据质量 阅读全文
posted @ 2020-02-17 20:14 别先生 阅读(4083) 评论(0) 推荐(0) 编辑
kettle的输出组件
摘要:1、输出是转换里面的第二个分类。输出属于ETL的L,L就是Load加载。微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。xls:2007年之前。xlsx:2007年之后。 Excel输出、Microsoft Excel输出的区别,Excel输出只能xls后缀名称的文件,Microso 阅读全文
posted @ 2020-02-15 12:16 别先生 阅读(1496) 评论(0) 推荐(0) 编辑
kettle的输入组件
摘要:1、kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。 2、CSV文件是一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。 3、文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。 首先要获取到要抽取的文本文件 阅读全文
posted @ 2020-02-12 12:34 别先生 阅读(1573) 评论(0) 推荐(0) 编辑
kettle的基础概念入门、下载、安装、部署
摘要:1、什么是ETL? 答:ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle! 2、什么是Kettle? 答: 阅读全文
posted @ 2020-02-08 20:41 别先生 阅读(1973) 评论(0) 推荐(0) 编辑
kettle基础概念的学习
摘要:参考书籍:Pentaho Kettle Solutions中文版。由于最近不断的使用kettle,随着不断深入使用,遇到的问题越来越多,发现脑子那点货根本不够用,所以根据阅读把一些概念记录一下,方便自己观看,也希望读看到帖子的有所帮助。 1、转换。Kettle在运行转换的时候,根据用户的设置,可以将 阅读全文
posted @ 2019-02-11 16:58 别先生 阅读(1606) 评论(0) 推荐(0) 编辑
kettle的job定时任务的一个小问题
摘要:思考,启动此job,做一个最简单,job实现表输入和表输出,但是实现表输入和表输出要花2个小时。那么这个job定时是如何执行的呢???第一种情况、job定时60分钟即1个小时。当job执行结束(即用了2个小时以后),再等待一个小时,再次执行此job的转换表输入和表输出。第二种情况、job执行了60分 阅读全文
posted @ 2019-01-08 20:20 别先生 阅读(6246) 评论(0) 推荐(0) 编辑
主要是解决,作为一个数据共享的数据库,存在的数据库统计,然后将计算的数据量输出到自己使用的数据库,进行主页面展示。
摘要:1、主要是解决,作为一个数据共享的数据库,存在的数据库统计,然后将计算的数据量输出到自己使用的数据库,进行主页面展示。 阅读全文
posted @ 2018-11-13 20:28 别先生 阅读(1572) 评论(0) 推荐(0) 编辑
使用kettle来根据时间戳或者批次号来批量导入数据,达到增量的效果。
摘要:1、Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。下载图形化界面的zip包格式的,直接解压缩使用即可。安装部署模式这里不说了,自己可以根据自己的需求安装为单机模式或者集群模式。 Kettle的社区官网:https://com 阅读全文
posted @ 2018-11-13 11:22 别先生 阅读(4774) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示