kettle学习笔记(六)——kettle转换步骤
一、概述
转换步骤分类:
1. 增加新的列
2. 字符串处理
3. 行列变换
4. 排序/排重/字段选择
5. 其他转换步骤
二、增加新的列
1.增加常量列
增加一列常量的列
其它增加列的操作大同小异,不一一赘述,只介绍计算器
1. 增加常量列
2. 增加序列列
3. 增加分组序列列
4. 增加校验列
5. 增加XML 列
6. 计算器
2.计算器
可以进行数值运算、日期运算等...
更多计算类型的介绍,参见wiki
三、字符串处理
1.字符串拆分
1.同Java的indexOf,左闭右开的形式
2.将一个字段拆分为多个字段,注意配置拆分后接收的字段
3.拆分成多行
类似上面,不过拆分成多行是这样的结果:
2.字符串合并
3.字符串替换
值映射:对数值进行映射,例如经典的性别1 0映射为男 女:
正则匹配:
4.字符串其它转换
字符串操作:
可以进行字符串转义(例如> 转义为 >)、保留/去除字符串里的数字、移除特殊字符、补充长度
四、行列变换
图示如下:(也叫正规化-列转行-宽表变窄表/ 反正规化-行转列-窄表变宽表)
示例如下:
窄表变宽表的配置:注意理解分组字段的含义
行转列,参考:https://www.cnblogs.com/OliverQin/p/5871330.html
五、排序/去重/字段选择
1.排序
2.排重
Unique Row: 需要事先排序:
Unique Row(Hash): 不排序,速度快,占内存。