随笔分类 -  etl

easy-batch job mappers
摘要:mappers 可以实现输入的record 到领域对象的映射 api 模式 Job job = new JobBuilder() .mapper(new MyRecordMapper()) .build(); 提供的映射 自定义类型转换 一些recordMapper(DelimitedRecordM 阅读全文

posted @ 2020-04-19 08:45 荣锋亮 阅读(321) 评论(0) 推荐(0) 编辑

easy-batch job filters
摘要:基于RecordFilter我们可以过滤不需要的record 使用的场景 注释内容的过滤 日志文件的过滤 api 模式 Job job = new JobBuilder() .filter(new myRecordFilter()) .build(); 提供的filter 来自官方文档 参考资料 h 阅读全文

posted @ 2020-04-19 08:35 荣锋亮 阅读(176) 评论(0) 推荐(0) 编辑

easy-batch job writers
摘要:easy-batch writers 的作用是写入record 到sink 支持的数据sink 参考图 来自官方表格 注意事项和提示 在JdbcRecordWriter处理数据库事务。每批处理后将创建一个事务并提交/回滚。 在JpaRecordWriter预计一个Java对象作为输入,而不是一个Re 阅读全文

posted @ 2020-04-19 08:30 荣锋亮 阅读(276) 评论(0) 推荐(0) 编辑

easy-batch job readers
摘要:easy-batch 提供了一些已经实现好的reader,对于从数据源读取records ,我们只需要注册实现好的RecordReader 接口 (当然可以自己实现) readers 代码参考 Job job = new JobBuilder() .reader(new MyRecordReader 阅读全文

posted @ 2020-04-19 08:24 荣锋亮 阅读(299) 评论(0) 推荐(0) 编辑

easy-batch job 报告
摘要:JobReport api easy-batch 包含了一个在batch 处理阶段的metrics 以及batch完成之后的报告 包含的信息 job启动以及结束的时间 job的状态 读取的record 写入的record 过滤的record 错误数 自定义metrics 通过JobMetrics的a 阅读全文

posted @ 2020-04-19 07:40 荣锋亮 阅读(245) 评论(0) 推荐(0) 编辑

easy-batch job 调度
摘要:使用ScheduledExecutorService调度 因为job实现了java.util.concurrent.Callable 所以可以基于ScheduledExecutorService进行调度 参考代码 Job job = ..; ScheduledExecutorService sche 阅读全文

posted @ 2020-04-18 23:00 荣锋亮 阅读(486) 评论(0) 推荐(0) 编辑

easy-batch job 监控
摘要:easy-batch 可以通过jmx 监控job 的运行状态(我们可以通过jmxexporter&&jmxtrans增强) 允许的jmx 指标 jmx mbean 名称为org.jeasy.batch.jmx.monitor:name=YourJobName 暴露的指标 job启动以及结束的时间 j 阅读全文

posted @ 2020-04-18 22:29 荣锋亮 阅读(286) 评论(0) 推荐(0) 编辑

easy-batch job 配置
摘要:创建一个batch job 我们可以通过JobBuilder创建job 默认job 的名称为job 参考 Job job = new JobBuilder() .named("myJob") .build(); ​ // Or ​ Job job = JobBuilder.aNewJob() .na 阅读全文

posted @ 2020-04-18 22:13 荣锋亮 阅读(342) 评论(0) 推荐(0) 编辑

easy-batch 核心概念
摘要:job 领域api 参考图 说明 通用的处理流程为: 通过包含JobParameters 参数的JobBuilder创建job 通过JobExecutor 执行job 通过JobReport获取job运行的状态 record 以及batch api easy-batch 提供了一个通用的record 阅读全文

posted @ 2020-04-18 17:53 荣锋亮 阅读(980) 评论(0) 推荐(0) 编辑

easy-batch 学习试用
摘要:easy-rules 是一个简单,但是封装比较完备的java etl 框架,提供了比较完备的数据处理能力 是一个可以使用的数据处理框架,以下是一个简单的学习 项目说明 项目是官方的一个demo,主要是学习下easy-rules 的基本使用,主要是转换一个csv文件为xml 项目准备 项目结构 ├── 阅读全文

posted @ 2020-04-18 17:30 荣锋亮 阅读(744) 评论(0) 推荐(0) 编辑

pipelinewise 学习二 创建一个简单的pipeline
摘要:pipelinewise 提供了方便的创建简单pipeline的命令,可以简化pipeline 的创建,同时也可以帮我们学习 生成demo pipeline pipelinewise init --name pipelinewise_samples pipelinewise init --name 阅读全文

posted @ 2019-09-17 13:15 荣锋亮 阅读(725) 评论(0) 推荐(0) 编辑

Supercharging your ETL with Airflow and Singer
摘要:转自:https://www.stitchdata.com/blog/supercharging-etl-with-airflow-and-singer/ singer 团队关于singer 与airflow 集成的文章 Earlier this year we introduced Singer, 阅读全文

posted @ 2019-09-17 10:37 荣锋亮 阅读(506) 评论(0) 推荐(0) 编辑

PipelineWise illustrates the power of Singer
摘要:转自:https://www.stitchdata.com/blog/pipelinewise-singer/ 转自:https://www.stitchdata.com/blog/pipelinewise-singer/ Stitch is based on Singer, an open sou 阅读全文

posted @ 2019-09-17 09:09 荣锋亮 阅读(269) 评论(0) 推荐(0) 编辑

pipelinewise 基于singer 指南的的数据pipeline 工具
摘要:pipelinewise 是基于开源singer 指南开发的数据pipeline工具,与singer tap 以及target 兼容 支持的特性 内置的elt 特性 轻量级 支持多种复制方法,cdc(基于log 的)基于key 的增量模式,全量 管理schema的变动 加载时的数据转换(可以方便进行 阅读全文

posted @ 2019-09-17 09:03 荣锋亮 阅读(569) 评论(0) 推荐(0) 编辑

关于singer elt 的几篇很不错的文章
摘要:以下是链接来自singer 团队的实践,很不错,值得学习 参考连接 https://www.stitchdata.com/blog/100-billion-records-later-refining-our-etl-service/ https://stackshare.io/stitch/how 阅读全文

posted @ 2019-09-16 20:14 荣锋亮 阅读(251) 评论(0) 推荐(0) 编辑

singer tap-minio-csv 使用
摘要:使用tap-minio-csv 我们可以将s3 中csv 的文件,通过singer 的target 写到不用的系统中,可以兼容 s3 的存储类型,以下是一个集成minio 的测试,将minio 中的csv 数据导入到pg中 环境准备 docker-compose 文件 version: "3" se 阅读全文

posted @ 2019-08-22 19:31 荣锋亮 阅读(464) 评论(0) 推荐(0) 编辑

Singer 修改tap-s3-csv 支持minio 连接
摘要:singer 团队官方处了一个tap-s3-csv 的tap,对于没有使用aws 的人来说并不是很方便了,所以简单修改了 下源码,可以支持通用的s3 csv 文件的处理,同时发布到了官方pip 仓库中,方便大家使用。 以下是简单代码修改部分的说明,以及如何发布pip包 修改说明 主要是关于连接s3 阅读全文

posted @ 2019-08-22 18:40 荣锋亮 阅读(428) 评论(0) 推荐(0) 编辑

dbt 集成presto试用
摘要:dbt 团队提供了presto 的adapter同时也是一个不错的的参考实现,可以学习 当前dbt presto 对于版本的要求是0.13.1 对于当前最新版本的还不支持,同时需要使用源码安装pip 包 dbt presto pip 包安装 clone 代码包 git clone https://g 阅读全文

posted @ 2019-07-11 16:40 荣锋亮 阅读(718) 评论(0) 推荐(0) 编辑

dbt 0.14.0 试用
摘要:dbt 0.14.0 在最近已经发布了,dbt server 的还是很不错的特性,以下安装试用下几个新功能 环境准备 安装 如果没有安装的: pip install dbt 已经安装的: pip install -U dbt 如果没有安装的: pip install dbt 已经安装的: pip i 阅读全文

posted @ 2019-07-11 15:08 荣锋亮 阅读(814) 评论(0) 推荐(0) 编辑

dbt 0.14.0 发布
摘要:以下内容来自官方博客,新的功能还是很不错的,后边尝试使用下。 参考资料:https://blog.fishtownanalytics.com/dbt-v0-14-0-better-serving-our-users-bf7cdbbcd5d2 Introducing dbt v0.14.0 Today 阅读全文

posted @ 2019-07-11 08:55 荣锋亮 阅读(659) 评论(0) 推荐(0) 编辑

导航