pentaho之kettle篇---kettle基本操作
今天先来做一个简单的kettle的例子。
打开输入,选择CSV文件输入。
双击CSV文件输入图标,可以看见如下:
步骤名称:就是你这一步的名字,可以任意取,原则就是要明白,清楚这一步是做了什么操作。
文件名:是你要选取的这个.CSV结尾的文件的名称。
列分隔符:每个CSV文件都是有一定的规则的,要么是分号是分隔符,要么是逗号是分隔符等等。
包含列头行:这个是针对你的这个CSV是否具有表头,如果有就勾上,否则他就把第一行的表头当成数据导入了。
这样选择一个CSV格式的文件之后就可以了,接下来点击一下获取字段,得到如下图所示:
点击一下预览,会提示要预览的行数没输入你要预览的行数就行了。
以上就是预览的内容了。
之后点击确定就OK了。
之后再来说说输出的操作。
这次输出的操作我们选择的是MySQL数据库,首先需要文件---->新建------->数据库连接。
填写上基本的数据库信息就OK了,点击测试出现
说明你的连库信息是正确的,点击确定就可以了。这一步的连接数据库只是针对于这个装换的。对于其他转换我们需要重新制定数据库!
双击表输出:
数据库连接就是我们刚才创建的数据库连接,如果不是我们想要的,可以另外再创建一个连接。
目标数据库如果没有创建的话,我们可以先写一个名字,然后再点击SQL,就出现了一个执行创建的sql的界面:
里面有些字段的类型是可以改的,改成你需要的字段的类型。之后点击执行就行了。这一次我们再查看一下我们数据库里面的表,就有字段了。
下面我们点击Run,
输出日志如下:
步骤度量如下:
之前表里面有2823个数据,所以这一次执行成功了!
但是!!!
这里面有一个问题,我们可以再Run一下这个转换,发现又导入了2823条记录。再来看看数据库里面的数据:
纳尼,怎么是5646???
怎么解决???
这中间是需要一个过滤的操作的,基本的思想就是:ID一样的就是Update,ID不一样的就是插入就去就可以了。
这就需要另外一个输出的功能了,就是插入/更新。
在这里面设置需要过滤的条件就可以了。
至此一个transformation就可以了。