2018年8月20日

streamsets record header 属性

摘要: record 的header 属性可以在pipeline 逻辑中使用。 有写stages 会为了特殊目录创建reord header 属性,比如(cdc)需要进行crud 操作类型的区分 你可以使用一些processor 去创建或者更新record 的header 属性信息 一个简单的header处 阅读全文

posted @ 2018-08-20 15:56 荣锋亮 阅读(967) 评论(0) 推荐(0) 编辑

streamsets 错误记录处理

摘要: 我们可以在stage 级别,或者piepline 级别进行error 处理配置 pipeline的错误记录处理 discard(丢踢) send response to Origin pipeline传递错误记录回microservice origin ,同时包含了错误的record 个数以及met 阅读全文

posted @ 2018-08-20 15:16 荣锋亮 阅读(913) 评论(0) 推荐(0) 编辑

streamsets 丢踢无关数据

摘要: 对于不需要的数据,streamsets 可以方便的设置丢踢,我们可以通过定义require 字段或者前置条件进行配置 require(必须字段) 必须字段是必须存在一条record 中的,对于不存在的,系统根据配置的error 处理规则进行处理,require 字段 可以在processor exe 阅读全文

posted @ 2018-08-20 14:59 荣锋亮 阅读(388) 评论(0) 推荐(0) 编辑

streamsets 数据流设计

摘要: streamsets 支持branch(分支)&& merge(合并)模式的数据流 branch 数据流 如下图: 我们可以根据数据包含的字段进行拆分,不同的数据流处理自己关注的数据 merge 合并数据流 如下图: 可以将多个数据流,发送到同一个stage(阶段),但是不是进行数据的合并,数据的处 阅读全文

posted @ 2018-08-20 14:45 荣锋亮 阅读(1817) 评论(0) 推荐(0) 编辑

streamsets origin 说明

摘要: origin 是streamsets pipeline的soure 入口,只能应用一个origin 在pipeline中, 对于运行在不同执行模式的pipeline 可以应用不同的origin 独立模式 集群模式 edge模式(agent) 开发模式(方便测试) standalone(独立模式)组件 阅读全文

posted @ 2018-08-20 14:27 荣锋亮 阅读(1709) 评论(0) 推荐(0) 编辑

streamsets http client && json parse && local fs 使用

摘要: streamsets 包含了丰富的组件,origin processer destination 测试例子为集成了http client 以及json 处理 启动服务 使用docker 创建pipeline 添加http client 组件 配置http client http 服务地址: http 阅读全文

posted @ 2018-08-20 13:45 荣锋亮 阅读(2099) 评论(0) 推荐(0) 编辑

导航