kettle从入门到精通第四十七课 ETL之kettle mongo output 写入

1、上一节课我们学习了mongo input读取步骤，本节课我们一起学习下mongo out 写入步骤，该步骤可以将数据写入到mongo中，如下图所示。

2、配置mongo连接，有两种方式，如截图所示。

Connection String:如String connectionString = "mongodb://username:password@localhost:27017/mydatabase?authSource=admin";

Configure Fields:单独配置每一个字段

Host name(s) or IP address(es):ip地址，多个主机名或IP地址用逗号分隔。

Port：端口号，mongo 默认为27017

Enable SSL connection：指定连接到配置了SSL的MongoDB服务器

Use all replica set members/mongos：选择在“主机名或IP地址”字段中指定多个主机时使用所有副本集。如果一个副本集包含多个主机，Java驱动程序会自动发现所有主机。如果所选择的副本集不可用，驱动程序会连接列表中的下一个副本集。适用连接mongo集群。

Authentication database：指定认证数据库。

Authenticate Mechanism：选择用户身份验证方法。取值包括 SCRAM-SHA-1、MONGODB-CR 和 PLAIN。

Username：指定访问数据库所需的用户名。如果使用Kerberos身份验证，请输入Kerberos主体。

Password：指定与用户名关联的密码。如果您正在使用Kerberos身份验证，则无需输入密码。

Authenticate using Kerberos：选择指定使用Kerberos进行身份验证。选中后，请将Kerberos主体作为用户名输入。

Connection timeout：指定（以毫秒为单位）在终止连接尝试之前等待连接到数据库的时间长度。留空以永远不终止连接。

Socket timeout：指定（以毫秒为单位）在终止写入操作之前等待的时间长度。留空以永远不终止操作。

3、通过生成记录步骤生成一条数据，包含name和age两个字段，如下图所示。

4、Output options ，写入mongo设置，如下图所示。

Database：写入数据的数据库的名称。单击“获取DBs”以在下拉菜单中填充服务器上数据库列表。

Collection：写入数据的集合的名称。单击“获取集合”以在下拉菜单中填充数据库中集合的列表。

Batch insert size：规定批量插入操作的批量大小。默认值为100行。

Truncate collection：选择在插入新数据之前删除目标集合中的现有数据。

Update：设置指定数据库和集合的更新写入方法。除非选择了"Update"字段，否则"Upsert"和"Modifier"更新选项是不可用的。

Upsert：选择将写入方法从插入更改为 upsert。upsert 方法根据 Mongo 文档字段选项卡中指定的所有传入字段，将匹配的记录替换为全新的记录。如果更新的匹配条件失败，将创建一个新记录。

Multi-update：选择对每个更新或 upsert 操作更新所有匹配的文档。

Modifier update：选择启用修饰符（$ operators），用于修改匹配文档中的个别字段。选择多更新选项时，将更新所有匹配的文档。

要更新多个匹配的文档，请选择 "Modifier update" 和 "Upsert"。选择 "Modifier update"、"Upsert" 和 "Multi-update" 将会将更新应用于所有匹配的文档，而不仅仅是第一个匹配的文档。

Number of retries for write operations：指定尝试写入操作的次数。

Delay, in seconds, between retry attempts：指定在下次重试之前等待的秒数。

Write concern (w option)：

指定写入操作必须成功的最小服务器数量。可用的取值如下：

-1：禁用所有写入操作错误的确认。

0（零）：禁用基本写入操作的确认，但返回有关套接字异常和网络错误的信息。

1：确认写入主节点上的写入操作。

大于1：等待成功写入指定数量的从节点上的写入操作，包括主节点。

点击 "获取自定义写入关注" 以检索存储在存储库中的自定义写入关注。

w Timeout：指定等待写入操作响应的时间（以毫秒为单位），然后终止操作。如果不想终止操作，请留空。

Journaled writes：选择设置写入操作等待，直到 mongod（MongoDB 系统的主要守护进程）确认写入操作并将数据提交到日志。

Read preference：

指定首先读取的节点类型

- Primary（主节点）
- Primary preferred（首选主节点）
- Secondary（从节点）
- Secondary preferred（首选从节点）
- Nearest（最近节点）

5、使用 Mongo 文档字段选项卡来定义在步骤中写入 Mongo 文档时如何处理字段值。修改器策略列控制修改器操作何时影响特定字段的执行。当一个 Mongo 文档的数据被拆分到多个传入的 PDI 行中，或者不可能同时执行影响同一个字段的不同修改器操作时，您可以使用修改器策略。

6、使用“创建/删除索引”选项卡来在一个或多个字段上创建和删除索引。除非使用唯一索引，否则 MongoDB 允许插入重复记录。索引是在步骤处理完所有行之后执行的。

posted @ 2024-02-23 22:44 慕容尘轩阅读(451) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· kettle从入门到精通第五十六课 ETL之kettle Microsoft Excel Output

· kettle从入门到精通第九课 kettle 表输出

· kettle MongoDB Output 配置说明

· kettle——入门操作(表输出)详细

· docker版本mongo数据导入导出记录

公告

昵称：慕容尘轩
园龄： 12年9个月
粉丝： 31
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

kettle从入门到精通第四十七课 ETL之kettle mongo output 写入

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

kettle从入门到精通 第四十七课 ETL之kettle mongo output 写入

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

kettle从入门到精通第四十七课 ETL之kettle mongo output 写入