kettle MongoDB Output 配置说明

基本配置

Configure Connection Tab

数据库连接
  • Connection timeout:尝试连接数据库所等待的最大时间(毫秒),空为无限,建议5000
  • Socket timeout:sql在执行成功之前等待读写操作的时间(毫秒),空为无限,建议5000

Output Options Tab

输入表与相关设置
  • Truncate option:在数据传输前清空表
  • Update 与 Upsert:
UpdateUpsert是否更新是否插入
未选 未选 不更新 只插入
选中 未选 只更新 不插入
选中 选中 更新 插入
  • Multi-update:更新所有匹配的文档,默认是只更新符合查询条件的第一个
  • Modifier update:允许修饰符运算符用于修改匹配文档中的各个字段($运算符),此类更新速度快,涉及的网络流量最小。只有当这个选项选中时,Mongo Document Fields Tab 的 Modifier operation 和 Modifier policy 才会生效

Mongo Document Fields Tab

输入字段与查询条件
  • Name:字段名
  • Mongo document path:字段路径,可以为 Name 设置新字段名
示例
  • Use field name:为 N 时字段会使用 Mongo document path 为新字段名
  • JSON:以 json 格式存储数据
  • Match field for upsert column:为 Y 的字段将作为查询条件
  • Modifier operation:当 Output Options Tab 的 Modifier update 选中时,此设置生效,其中,N/A 为不更新,$set 为覆盖更新 $inc 为数字的加法更新,$push 为数组的追加更新
  • Modifier policy:当 Output Options Tab 的 Modifier update 选中时,此设置生效,其中,Insert 为插入,Update 为更新,可为不同字段设置不同的更新方法

示例

需求1,更新标志位

读取数据后将字段hours更改,之后需要将改动更新到原数据,但是数据的唯一标识就是hours,所以在hours更改之前复制给old_hours,在最后根据old_hours把新hours更新。

配置1
  • 只勾选 Update 确保作业只更新不插入
  • 勾选 Modifier update 从而只更新特定的字段,否则会更新所有字段,没有值的为 null
配置2
  • 字段 old_hours 必须指定 Mongo document path 为 hours,同时将 Use field name 设为 N,否则 kettle 找不到此字段
  • 字段 old_hours 的 Match field for upsert column 设为 Y,以字段作为更新的查询条件
  • 将 old_hours 的 Modifier operation 设为 N/A,hours 的 Modifier operation 设为 $set,即可达到以 old_hours 查询然后更新为 hours 的效果
  • old_hours 的 Modifier operation 设为 N/A 之后,Modifier policy 怎么设置都无所谓,没有效果
posted on 2024-03-07 11:17  小破孩楼主  阅读(80)  评论(0编辑  收藏  举报