kettle MongoDB Output 配置说明
基本配置
Configure Connection Tab
- Connection timeout:尝试连接数据库所等待的最大时间(毫秒),空为无限,建议5000
- Socket timeout:sql在执行成功之前等待读写操作的时间(毫秒),空为无限,建议5000
Output Options Tab
- Truncate option:在数据传输前清空表
- Update 与 Upsert:
Update | Upsert | 是否更新 | 是否插入 |
---|---|---|---|
未选 | 未选 | 不更新 | 只插入 |
选中 | 未选 | 只更新 | 不插入 |
选中 | 选中 | 更新 | 插入 |
- Multi-update:更新所有匹配的文档,默认是只更新符合查询条件的第一个
- Modifier update:允许修饰符运算符用于修改匹配文档中的各个字段($运算符),此类更新速度快,涉及的网络流量最小。只有当这个选项选中时,Mongo Document Fields Tab 的 Modifier operation 和 Modifier policy 才会生效
Mongo Document Fields Tab
- Name:字段名
- Mongo document path:字段路径,可以为 Name 设置新字段名
- Use field name:为 N 时字段会使用 Mongo document path 为新字段名
- JSON:以 json 格式存储数据
- Match field for upsert column:为 Y 的字段将作为查询条件
- Modifier operation:当 Output Options Tab 的 Modifier update 选中时,此设置生效,其中,N/A 为不更新,$set 为覆盖更新 $inc 为数字的加法更新,$push 为数组的追加更新
- Modifier policy:当 Output Options Tab 的 Modifier update 选中时,此设置生效,其中,Insert 为插入,Update 为更新,可为不同字段设置不同的更新方法
示例
需求1,更新标志位
读取数据后将字段hours更改,之后需要将改动更新到原数据,但是数据的唯一标识就是hours,所以在hours更改之前复制给old_hours,在最后根据old_hours把新hours更新。
- 只勾选 Update 确保作业只更新不插入
- 勾选 Modifier update 从而只更新特定的字段,否则会更新所有字段,没有值的为 null
- 字段 old_hours 必须指定 Mongo document path 为 hours,同时将 Use field name 设为 N,否则 kettle 找不到此字段
- 字段 old_hours 的 Match field for upsert column 设为 Y,以字段作为更新的查询条件
- 将 old_hours 的 Modifier operation 设为 N/A,hours 的 Modifier operation 设为 $set,即可达到以 old_hours 查询然后更新为 hours 的效果
- old_hours 的 Modifier operation 设为 N/A 之后,Modifier policy 怎么设置都无所谓,没有效果