随笔分类 -  etl

Castled 源码解析 - connector 模块connector以及poller说明
摘要:connector 属于Castled 一个比较核心的东西,包含了核心部分的datawarehouse数据poll 处理,同时也包含了对于不同外部服务集成的处理 当然才代码中我们也可以看到一部分基于stream 的处理(文件,jdbc,s3.。。。),auth部分基于了oauth目前更多是关注认证, 阅读全文

posted @ 2022-01-31 21:28 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

Castled 源码解析 - common 模块说明
摘要:Castled 的comon 模块包含了一个比较核心的东西form处理(官方成为CFL),同时也包含了一个常用的工具类CFL 是基于注解处理的,整体代码不是很多,比较重要的是schema,cfl,同时包含了Castled 自己开发的一个简单队列(阻塞以及带偏移的),同时定义了一些关于数据处理的接口定 阅读全文

posted @ 2022-01-31 14:06 荣锋亮 阅读(59) 评论(0) 推荐(0) 编辑

Castled 源码解析 - jarvis 模块说明
摘要:jarvis 模块主要保基于quartz 包装了一些调度以及任务管理,包含了刷新job ,全局job 同时也暴露为了一个通用的guice 模块,同时基于jesque进行后台任务以及延迟任务的处理 通过代码会发现jesque 占比是比较多的(好多任务处理的,状态标记的),而且quartz更多是 与后台 阅读全文

posted @ 2022-01-31 14:00 荣锋亮 阅读(218) 评论(0) 推荐(0) 编辑

基于dremio 开发一个简单的反向ETL
摘要:反向ETL 目前是一个和不错的领域,以下是自己基于一些工具集成参考构思的一个反向ETL 设计方案,具体编码还在规划中以下简单介绍下一些思路 参考图 简单说明 核心是利用了dremio 数据反射以及CTAS 能力(也支持drop),对于数据使用了快照的处理,直接存储在s3中,格式使用了基于时间分区的格 阅读全文

posted @ 2022-01-20 23:36 荣锋亮 阅读(194) 评论(0) 推荐(0) 编辑

来自Castled 官方的一篇性能对比
摘要:转自:https://medium.com/castled/fastest-reverse-etl-platform-census-vs-hightouch-vs-castled-3d2975dd4e55Fastest Reverse ETL Platform: Census vs Hightouc 阅读全文

posted @ 2022-01-14 01:11 荣锋亮 阅读(67) 评论(0) 推荐(0) 编辑

census 安全处理模式
摘要:通过此图以及官方的文档我们可以更好的了解实现机制 参考机制 详细内容参考官方文档,以下是一个参考图参考图 参考资料 https://blog.getcensus.com/reverse-etl-benchmark-series-pt-1-census-44x-faster-than-hightouc 阅读全文

posted @ 2022-01-04 21:12 荣锋亮 阅读(45) 评论(0) 推荐(0) 编辑

castled 简单原理说明
摘要:主要是一个简单的原理说明,具体的后续会从代码层面说明 参考图 poller 接口定义 public interface WarehouseDataPoller { WarehousePollResult pollRecords(WarehousePollContext warehousePollCo 阅读全文

posted @ 2022-01-04 20:51 荣锋亮 阅读(130) 评论(0) 推荐(0) 编辑

castled 运行试用
摘要:castled 官方直接提供了docker-compose 一键运行 环境运行 docker-compose git clone https://github.com/castledio/castled.git cd castled docker-compose up -d pg 准备 docker 阅读全文

posted @ 2022-01-03 22:49 荣锋亮 阅读(61) 评论(0) 推荐(0) 编辑

反向ETL 一些参考知识
摘要:反向ETL 实际是一种集成模式,以下这张图可以说明反向ETL 的位置 参考图 说明 基于标准的玩法,系统开发会越来越简单,反向ETL 是从业务模型上通用化了新的处理模式,对于我们的集成会方便很多,以下一些参考资料值得学习下 参考资料 https://hightouch.io/blog/reverse 阅读全文

posted @ 2022-01-03 14:56 荣锋亮 阅读(195) 评论(0) 推荐(0) 编辑

castled 开源反向ETL 工具
摘要:反向ETL 是这几年因为数据集成演变出来的一个新型数据集成模式(saas 的兴起,以及外部共享的需求) castled 参考玩法 支持的特性 增量以及全量同步 自动异常处理以及恢复 弹性可靠 CFL (castled自己的一套UI框架) k8s 集成 说明 castled 同时支持扩展,提供了jav 阅读全文

posted @ 2022-01-03 14:41 荣锋亮 阅读(156) 评论(0) 推荐(0) 编辑

streamsets tar 模式启动
摘要:参考步骤 下载 下载需要注册账户,注册就可以了 配置 基于3.21 解压软件包 tar xf streamsets-datacollector-all-3.21.0.tgz -C /opt/streamsets-datacollector 复制 service cp systemd/sdc.serv 阅读全文

posted @ 2021-03-12 22:58 荣锋亮 阅读(258) 评论(0) 推荐(0) 编辑

streamset data collector 新注册机制
摘要:streamset data collector 从3.15x开始下载是需要注册的,但是可以无限使用,这个还是很不错(主要还是因为云模式影响的)默认的登陆默认应该很早就有些变动了,默认会使用oauth,但是我们可以配置基于ldap以及file 的,但是还是需要注册码的 配置参考 https://st 阅读全文

posted @ 2021-03-09 23:06 荣锋亮 阅读(1806) 评论(0) 推荐(0) 编辑

airbyte 整体架构
摘要:内容来自官方文档,基于此图我们可以了解airbyte 的整体运行&&方便问题解决&&环境部署 参考图 简单说明 ui 进行配置,以及通过界面查看同步&&日志 config store 关于认证&&同步次信息存储 scheduler 存储关于调度执行情况 config api 方便ui 进行连接配置 阅读全文

posted @ 2021-02-19 17:12 荣锋亮 阅读(3191) 评论(0) 推荐(0) 编辑

astronomer 企业级的airflow 框架
摘要:airflow 是一个很不错的workflow 调度工具,但是实际使用还是有一些问题的。astronomer 基于airflow 做了一些扩展,可以实现airflow安全,产品级,可靠以及可扩展 一些说明 astronomer 也是基于开源的组件做了一些包装,比如graphql的,helm,ngin 阅读全文

posted @ 2021-02-12 13:20 荣锋亮 阅读(415) 评论(0) 推荐(0) 编辑

airbyte 基于singer 扩展的EL 平台
摘要:airbyte 是基于singer 协议扩展的EL 平台,支持了不错的可视化操作 支持的特性 方便的数据操作(配置+api) 方便的connector 构建操作 开源可以私有化部署 参考docker-compose 运行 .env VERSION=0.14.1-alpha DATABASE_USER 阅读全文

posted @ 2021-01-30 19:10 荣锋亮 阅读(2271) 评论(0) 推荐(0) 编辑

easy-batch相关qa
摘要:easy-batch相关qa,还是很不错的资料 包括了数据读取的原理,数据写入的原理,数据校验,与spring batch 的比较,基于easy-batch的复杂处理方法(easy-flows) 参考链接: https://github.com/j-easy/easy-batch/wiki/faqs 阅读全文

posted @ 2020-04-19 18:40 荣锋亮 阅读(218) 评论(0) 推荐(0) 编辑

easy-batch job listeners
摘要:easy-batch 的listeners给与我们提供了一个系统状态的一个日志监控点,同时 基于不同的类型提供了不通的监控 Job listener job 关联的 需要实现的方法签名 public interface JobListener { ​ void beforeJobStart(JobP 阅读全文

posted @ 2020-04-19 18:39 荣锋亮 阅读(272) 评论(0) 推荐(0) 编辑

easy-batch job validators
摘要:验证输入数据是每个批处理应用程序中必不可少的步骤。使用Easy Batch,可以通过注册一个或多个RecordValidator实现来验证记录,如下所示: Job job = new JobBuilder() .validator(new MyFirstRecordValidator()) .pro 阅读全文

posted @ 2020-04-19 08:56 荣锋亮 阅读(159) 评论(0) 推荐(0) 编辑

easy-batch job processors
摘要:Easy Batch通过RecordProcessor接口定义处理逻辑。在这里,可以实现对每条记录的处理方式。记录被提交到处理管道,其中每条记录从一个处理器传送到下一个处理器。记录类型可以从一个处理器更改为另一个。 可以在管道中定义任意数量的处理器: Job job = new JobBuilder 阅读全文

posted @ 2020-04-19 08:53 荣锋亮 阅读(175) 评论(0) 推荐(0) 编辑

easy-batch job marshallers
摘要:marshallers 可以将payload,转换为目标格式(xml,json,csv。。。) 内置的marshallers Record marshalling注意事项 默认情况下,DelimitedRecordMarshaller,FixedLengthRecordMarshaller,Open 阅读全文

posted @ 2020-04-19 08:50 荣锋亮 阅读(242) 评论(0) 推荐(0) 编辑

导航