随笔分类 -  etl

Semantic Metadata 语义元数据
摘要:Semantic Metadata 是orbital 为了进行数据集成提出的一套玩法,同时orbital 也开发了一些框架层的支持(Taxi 进行模型描述) orbital 进行集成开发 Semantic Metadata 的特点 元数据定义了字段内容的契约 平台无关 系统基于此进行特定领域的业务a 阅读全文

posted @ 2024-12-03 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Orbital 自动集成平台
摘要:Orbital 自动集成平台,Orbital 基于了Taxi 使用了语义元数据理念 包含的特性 不需要编写额外代码进行集成 api 优先 技术无关,支持grpc,rest,kafka,soap 等 自动适配 参考玩法 如下图,使用上与对于语义元数据定义是一致的,首先基于Taxi定义模型契约,然后业务 阅读全文

posted @ 2024-11-19 10:12 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理
摘要:主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架
摘要:petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

cloudquery 开源ETL 框架
摘要:cloudquery 开源ETL 框架提供了基于plugin 的数据集成模式 包含的特性 开源,提供了sdk 快速,基于golang 轻量级协程,基于apache arrow 部署方便,就是一个独一的二进制文件 可扩展,cloudquery plugin 是无状态的,可以方便的扩展 说明 cloud 阅读全文

posted @ 2024-03-26 15:24 荣锋亮 阅读(128) 评论(0) 推荐(0) 编辑

dlt 与dbt的直接集成简单试用
摘要:dlt 直接基于cli包装了dbt 的运行,对于希望通过dlt 进行etl 之后,还想运行dbt 的模型处理的场景就比较方便了,而且dlt 与dbt 的集成也是官方 一个很不错的特性,以下是一个简单试用 环境准备 docker-compose version: "3" services: pg: i 阅读全文

posted @ 2024-02-20 08:00 荣锋亮 阅读(93) 评论(0) 推荐(0) 编辑

dlt s3 集成试用
摘要:属于一个简单试用,dlt 支持destinations 为filesystem,当然也支持source 为filesystem,内部处理是使用了s3fs 环境准备 这个比较简单,推荐基于venv dlt pip install dlt[filesystem] s3 通过docker 部署,同时可以需 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

dlt 简单试用
摘要:以下主要是一个简单的体验 环境初始化 以前也简单说明dlt实际上就是一个python包,实际使用推荐结合python 的venv 安装 安装 python -m venv venv pip install -r requirements.txt requirements.txt 文件( 主要是一些依 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

apache hop kettle 替换方案
摘要:apache hop 是一个apache 开源的 kettle替换方案,提供了kettle 任务的导入能力,整体来说目前估计ga 了,而且还算活跃 参考架构 如下图,包含了gui,server,metadata store,runner。。。还是比较完整的 支持的功能 pipeline 开发 就是k 阅读全文

posted @ 2023-10-04 09:36 荣锋亮 阅读(494) 评论(0) 推荐(0) 编辑

dbt-server 简单说明
摘要:dbt-server 是dbt 团队对于dbt-rpc 调整之后开源的dbt api 服务,内部基于了dbt-core 提供的cli 编程调用能力 使用到的一些框架 fastapi 提供api 能力 dbt core 进行dbt 任务的执行 celery 基于celery 的任务调度(代码中的wor 阅读全文

posted @ 2023-07-31 17:43 荣锋亮 阅读(116) 评论(0) 推荐(0) 编辑

Oracle GoldenGate Free 安装
摘要:一些预备 安装了docker 网络可以连接容器仓库(oracle的) 包含oracle 账户 运行 拉取docker 镜像 docker pull container-registry.oracle.com/goldengate/goldengate-free:21.9.0.0-oracle 启动 阅读全文

posted @ 2023-05-03 10:50 荣锋亮 阅读(121) 评论(0) 推荐(0) 编辑

Oracle GoldenGate Free goldengate 的免费版
摘要:Oracle GoldenGate Free 是goldengate 的免费版,基于容器运行,包含了完整的goldengate 特性,但是也有有限制的 限制 oracle 数据库20G 大小 只能与GoldenGate free 实例交互 没有active data guard 以及xstream 阅读全文

posted @ 2023-05-03 10:18 荣锋亮 阅读(311) 评论(0) 推荐(0) 编辑

arroyo sql 处理
摘要:我在arroyo docker 镜像处理的时候简单说过一个arroyo 的编译服务,在看了官方介绍之后发现官方是有说明的 参考处理 基于datafusion解析查询以及计划生成 查询计划编译为arroyo 逻辑dataflow 计划 dataflow 逻辑计划,生成rust 代码 rust 代码编译 阅读全文

posted @ 2023-04-11 21:41 荣锋亮 阅读(47) 评论(0) 推荐(0) 编辑

grouparoo 数据流
摘要:内容来自官方文档,基于此我们可以了解grouparoo 各组件的工作流程可以方便源码的学习阅读(目前官方关于架构介绍的比较少) 参考介绍 参考图 简单说明 图中的不少都是以插件模式开发的,core,以及cli 是比较核心的,以上组件大部分是利用了actionherojs的特性 说明 grouparo 阅读全文

posted @ 2022-02-03 00:14 荣锋亮 阅读(46) 评论(0) 推荐(0) 编辑

Building a Sync Engin
摘要:内容来自:https://www.grouparoo.com/blog/building-a-sync-engine 内容主要介绍了如何开发一个同步引擎,没有太多高深的,主要是基于了变动的时间戳以及水印算法 简单说明 预备 添加水印列,当然对于不同的数据库处理方式会不一样的,有些可能需要通过触发器 阅读全文

posted @ 2022-02-01 21:07 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

grouparoo 基于nodejs 的开源反向ETL 工具
摘要:grouparoo 是一个基于nodejs 开发的反向ETL 工具,通过此我们可以学习内部机制 参考使用 安装 npm install -g grouparoo grouparoo init . grouparoo config 效果 启动之后需要通过注册以及添加app 包含ui 管理,支持的app 阅读全文

posted @ 2022-02-01 19:59 荣锋亮 阅读(214) 评论(0) 推荐(0) 编辑

Castled 源码解析 - container 模块说明
摘要:container 属于Castled api 后端服务,后端包含了任务调度,db 迁移,有几个服务是比较重要的 主要是pipelineservice,ExternalAppService,WarehouseService,而且官方还提供了一套基于events 的处理 主要包含PipelineEve 阅读全文

posted @ 2022-02-01 13:22 荣锋亮 阅读(67) 评论(0) 推荐(0) 编辑

Castled 源码解析 - connector 模块几个中间表定义
摘要:Castled 的connector利用了schema 以及中间表进行数据存储(包含的已经提交的,未提交的) 官方使用了一个属于snapshot(快照),对于数据的处理,官方使用了excep sql 函数,基于不同 时间的snapshot 利用excep 就可以知道数据的变动 几个提供的中间表 主要 阅读全文

posted @ 2022-01-31 23:23 荣锋亮 阅读(47) 评论(0) 推荐(0) 编辑

Castled 源码解析 - connector 模块WarehousePollContext 说明
摘要:connector模块中的WarehousePollContext是比较重要的 代码说明 关于pipeline 格式的定义 了解pipeline格式定义,对于分析后边的代码是很有意义的,可以知道依赖的模块 public class PipelineConfigDTO { @NotNull priva 阅读全文

posted @ 2022-01-31 22:58 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

Castled 源码解析 - connector 模块app部分说明
摘要:app 部分属于Castled处理外部链接的核心,主要包含了ExternalAppConnector以及DataSink 核心组件 ExternalAppConnector 选取了部分 DataSink 选取了部分 BufferedObjectSink 此对象是在每个DataSink实现都会包含的一 阅读全文

posted @ 2022-01-31 22:36 荣锋亮 阅读(73) 评论(0) 推荐(0) 编辑

导航