随笔分类 -  streamsets

streamsets Executors 说明
摘要:执行程序阶段在收到事件时触发任务。执行者不会写入或存储事件。 将执行程序用作事件流中数据流触发器的一部分,以执行事件驱动的与管道相关的任务,例如在目标关闭时移动完全写入的文件。 可以使用的executors Amazon S3 - Creates new Amazon S3 objects for 阅读全文

posted @ 2018-08-21 15:48 荣锋亮 阅读(457) 评论(0) 推荐(0) 编辑

streamsets geoip 使用
摘要:geoip 分析对于网站数据分析是很方便的 安装geoip2 下载地址 https://dev.maxmind.com/geoip/geoip2/geolite2/ 配置streamsets geoip 组件 pipeline flow dev raw data 配置 geoip 配置 json p 阅读全文

posted @ 2018-08-21 15:37 荣锋亮 阅读(553) 评论(3) 推荐(0) 编辑

streamsets stream selector 使用
摘要:stream selector 就是一个选择器,可以方便的对于不同record 的数据进行区分,并执行不同的处理 pipeline flow stream selector 配置 local fs 配置 主要是进行数据的存储 运行效果 dev 数据 效果 参考资料 https://streamset 阅读全文

posted @ 2018-08-21 13:27 荣锋亮 阅读(1740) 评论(0) 推荐(0) 编辑

streamsets mongodb destinations 使用
摘要:测试集成了directory(excel) 以及redis && field splitter 组件 pipeline flow docker-compose 配置 redis 服务&& streamsets version: "3" services: sets: image: streamset 阅读全文

posted @ 2018-08-21 12:44 荣锋亮 阅读(1542) 评论(7) 推荐(0) 编辑

streamsets redis destinations 使用
摘要:测试集成了directory(excel) 以及redis && field splitter 组件 pipeline flow docker-compose 配置 redis 服务&& streamsets version: "3" services: sets: image: streamset 阅读全文

posted @ 2018-08-21 10:28 荣锋亮 阅读(1086) 评论(0) 推荐(0) 编辑

streamsets excel 数据处理
摘要:streamsets 有一个directory的origin 可以方便的进行文件的处理,支持的格式也比较多,使用简单 pipeline flow 配置 excel 数据copy 因为使用的是容器,会有数据copy 容器的一步 因为使用的是容器,会有数据copy 容器的一步 容器id 结合实际查询: 阅读全文

posted @ 2018-08-21 09:24 荣锋亮 阅读(1225) 评论(0) 推荐(0) 编辑

streamsets Processors 说明
摘要:Processors 表示对于一种数据操作处理,在pipeline中可以应用多个Processors, 同时根据不同的执行模式,可以分为独立模式的,集群模式、边缘模式(agent),以及 帮助测试的测试Processors 独立pipelineonly Record Deduplicator - R 阅读全文

posted @ 2018-08-21 09:22 荣锋亮 阅读(917) 评论(0) 推荐(0) 编辑

streamsets record header 属性
摘要:record 的header 属性可以在pipeline 逻辑中使用。 有写stages 会为了特殊目录创建reord header 属性,比如(cdc)需要进行crud 操作类型的区分 你可以使用一些processor 去创建或者更新record 的header 属性信息 一个简单的header处 阅读全文

posted @ 2018-08-20 15:56 荣锋亮 阅读(974) 评论(0) 推荐(0) 编辑

streamsets 错误记录处理
摘要:我们可以在stage 级别,或者piepline 级别进行error 处理配置 pipeline的错误记录处理 discard(丢踢) send response to Origin pipeline传递错误记录回microservice origin ,同时包含了错误的record 个数以及met 阅读全文

posted @ 2018-08-20 15:16 荣锋亮 阅读(945) 评论(0) 推荐(0) 编辑

streamsets 丢踢无关数据
摘要:对于不需要的数据,streamsets 可以方便的设置丢踢,我们可以通过定义require 字段或者前置条件进行配置 require(必须字段) 必须字段是必须存在一条record 中的,对于不存在的,系统根据配置的error 处理规则进行处理,require 字段 可以在processor exe 阅读全文

posted @ 2018-08-20 14:59 荣锋亮 阅读(392) 评论(0) 推荐(0) 编辑

streamsets 数据流设计
摘要:streamsets 支持branch(分支)&& merge(合并)模式的数据流 branch 数据流 如下图: 我们可以根据数据包含的字段进行拆分,不同的数据流处理自己关注的数据 merge 合并数据流 如下图: 可以将多个数据流,发送到同一个stage(阶段),但是不是进行数据的合并,数据的处 阅读全文

posted @ 2018-08-20 14:45 荣锋亮 阅读(1837) 评论(0) 推荐(0) 编辑

streamsets origin 说明
摘要:origin 是streamsets pipeline的soure 入口,只能应用一个origin 在pipeline中, 对于运行在不同执行模式的pipeline 可以应用不同的origin 独立模式 集群模式 edge模式(agent) 开发模式(方便测试) standalone(独立模式)组件 阅读全文

posted @ 2018-08-20 14:27 荣锋亮 阅读(1723) 评论(0) 推荐(0) 编辑

streamsets http client && json parse && local fs 使用
摘要:streamsets 包含了丰富的组件,origin processer destination 测试例子为集成了http client 以及json 处理 启动服务 使用docker 创建pipeline 添加http client 组件 配置http client http 服务地址: http 阅读全文

posted @ 2018-08-20 13:45 荣锋亮 阅读(2127) 评论(0) 推荐(0) 编辑

streamsets 包管理
摘要:streamsets 自带一个包管理,可以方便的进行三方组件的添加,比如我们需要处理mongodb 数据,默认是没有添加这个组件的,操作如下: 选择包管理 选择组件 安装 点击安装 提示界面 安装完成,重启应用 使用 添加 配置 添加 配置 阅读全文

posted @ 2018-08-19 22:52 荣锋亮 阅读(771) 评论(0) 推荐(0) 编辑

streamsets microservice pipeline 试用
摘要:实际上还是一个pipeline,只是添加了一些规则以及内嵌的http server 方便我们对于基于http 或者类似轻量 协议数据的处理 基本环境 使用docker&& docker-compose 进行环境搭建,具体参考项目:https://github.com/rongfengliang/st 阅读全文

posted @ 2018-08-19 10:00 荣锋亮 阅读(882) 评论(0) 推荐(0) 编辑

streamsets docker 安装试用
摘要:docker 安装 docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector 简单demo 登陆 账户 admin admin 账户 admin admin 登陆完成 阅读全文

posted @ 2018-08-19 00:37 荣锋亮 阅读(1305) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示