随笔分类 -  singer

airbyte 整体架构
摘要:内容来自官方文档,基于此图我们可以了解airbyte 的整体运行&&方便问题解决&&环境部署 参考图 简单说明 ui 进行配置,以及通过界面查看同步&&日志 config store 关于认证&&同步次信息存储 scheduler 存储关于调度执行情况 config api 方便ui 进行连接配置 阅读全文

posted @ 2021-02-19 17:12 荣锋亮 阅读(3224) 评论(0) 推荐(0) 编辑

pipelinewise 学习二 创建一个简单的pipeline
摘要:pipelinewise 提供了方便的创建简单pipeline的命令,可以简化pipeline 的创建,同时也可以帮我们学习 生成demo pipeline pipelinewise init --name pipelinewise_samples pipelinewise init --name 阅读全文

posted @ 2019-09-17 13:15 荣锋亮 阅读(728) 评论(0) 推荐(0) 编辑

Supercharging your ETL with Airflow and Singer
摘要:转自:https://www.stitchdata.com/blog/supercharging-etl-with-airflow-and-singer/ singer 团队关于singer 与airflow 集成的文章 Earlier this year we introduced Singer, 阅读全文

posted @ 2019-09-17 10:37 荣锋亮 阅读(512) 评论(0) 推荐(0) 编辑

PipelineWise illustrates the power of Singer
摘要:转自:https://www.stitchdata.com/blog/pipelinewise-singer/ 转自:https://www.stitchdata.com/blog/pipelinewise-singer/ Stitch is based on Singer, an open sou 阅读全文

posted @ 2019-09-17 09:09 荣锋亮 阅读(271) 评论(0) 推荐(0) 编辑

pipelinewise 基于singer 指南的的数据pipeline 工具
摘要:pipelinewise 是基于开源singer 指南开发的数据pipeline工具,与singer tap 以及target 兼容 支持的特性 内置的elt 特性 轻量级 支持多种复制方法,cdc(基于log 的)基于key 的增量模式,全量 管理schema的变动 加载时的数据转换(可以方便进行 阅读全文

posted @ 2019-09-17 09:03 荣锋亮 阅读(576) 评论(0) 推荐(0) 编辑

关于singer elt 的几篇很不错的文章
摘要:以下是链接来自singer 团队的实践,很不错,值得学习 参考连接 https://www.stitchdata.com/blog/100-billion-records-later-refining-our-etl-service/ https://stackshare.io/stitch/how 阅读全文

posted @ 2019-09-16 20:14 荣锋亮 阅读(253) 评论(0) 推荐(0) 编辑

singer tap-minio-csv 使用
摘要:使用tap-minio-csv 我们可以将s3 中csv 的文件,通过singer 的target 写到不用的系统中,可以兼容 s3 的存储类型,以下是一个集成minio 的测试,将minio 中的csv 数据导入到pg中 环境准备 docker-compose 文件 version: "3" se 阅读全文

posted @ 2019-08-22 19:31 荣锋亮 阅读(469) 评论(0) 推荐(0) 编辑

Singer 修改tap-s3-csv 支持minio 连接
摘要:singer 团队官方处了一个tap-s3-csv 的tap,对于没有使用aws 的人来说并不是很方便了,所以简单修改了 下源码,可以支持通用的s3 csv 文件的处理,同时发布到了官方pip 仓库中,方便大家使用。 以下是简单代码修改部分的说明,以及如何发布pip包 修改说明 主要是关于连接s3 阅读全文

posted @ 2019-08-22 18:40 荣锋亮 阅读(430) 评论(0) 推荐(0) 编辑

使用singer tap-postgres 同步数据到pg
摘要:singer 是一个很不错的开源etl 解决方案,以下演示一个简单的数据从pg 同步到pg 很简单就是使用tap-postgres + target-postgres 环境准备 对于测试的环境的数据库使用docker-compose 运行 docker-compose 文件 version: "3" 阅读全文

posted @ 2019-06-05 15:07 荣锋亮 阅读(1293) 评论(1) 推荐(0) 编辑

使用singer 转换gitbase 数据到postgresql
摘要:gitbase 是mysql server 的一个实现(主要是用来分析git仓库代码),但是里面好多功能可能并不是很强大(sql 的限制) 我们可以通过singer 的tap-mysql 将数据抽取到标准的pg 数据库,可以方便的使用pg 的好多函数 参考使用 mysql-postgresql 的可 阅读全文

posted @ 2019-05-19 17:05 荣锋亮 阅读(235) 评论(0) 推荐(1) 编辑

Singer 学习十三 发现模式
摘要:发现模式 发现模式提供了一种描述tap 支持数据流的方式,使用了json schema 做为描述数据的结构以及每个数据流的 类型,发现模式的实现依赖tap 的数据源,有些taps 将硬编码每个流的模式,而其他的将连接到提供可用流的 描述的api,当运行发现模式时,tap 应该写如stdout 流列表 阅读全文

posted @ 2019-01-09 22:36 荣锋亮 阅读(302) 评论(0) 推荐(0) 编辑

Singer 学习十二 指南
摘要:版本0.3.0 tap是一个应用程序,需要一个配置文件和可选的状态文件作为输入,并产生有序的流记录, 状态和模式信息作为输出。 一个记录是任何类型的JSON编码的数据。tap 状态消息用于保留一个调用之间的信息。一个模式消息描述stream 中的 数据类型。Tap可以用任何编程语言实现。 tap设计 阅读全文

posted @ 2019-01-09 19:10 荣锋亮 阅读(421) 评论(0) 推荐(0) 编辑

Singer 学习十一 配置以及状态管理
摘要:配置和状态文件通过提供身份验证信息,开始时间和有关以前调用的信息,帮助为Taps和Targets提供上下文 配置文件 配置文件包含tap 运行需要的信息,通常包含API,以及数据源的凭据 特殊字段 start_data ,首次同步时候使用,指定数据同步的范围 user_agent 提供方便的问题解决 阅读全文

posted @ 2019-01-09 18:50 荣锋亮 阅读(324) 评论(0) 推荐(0) 编辑

Singer 学习十 同步模式
摘要:sync 模式是属于tap 的操作,同步模式下,tap 需要提交 schema、 record 、state message, singer 指南对于每种 类型有详细的说明 streams 每个stream 的metadata 包含了详细的用来进行sync 操作的控制说明 replication 方 阅读全文

posted @ 2019-01-09 16:54 荣锋亮 阅读(233) 评论(0) 推荐(0) 编辑

Singer 学习九 运行&&开发taps、targets (四 开发target)
摘要:singer 的target 需要从stdin 的行数据,同时处理schema、record、state 消息 指南 schema 需要进行关联stream records 数据的校验 一旦Target处理了State消息之前流中出现的所有数据,就将状态消息写入stdout。请注意,尽管State消 阅读全文

posted @ 2019-01-09 16:25 荣锋亮 阅读(202) 评论(0) 推荐(0) 编辑

Singer 学习八 运行&&开发taps、targets (三 开发tap)
摘要:如何没有找到适合的tap,那么我们可以自己开发一个 hello world tap 仅仅是一个程序,我们可以使用任何语言进行编写,根据singer 指南,输出数据到stdout 即可,实际上一个简单的 demo,可以直接使用命令行工具,不需要编写任何代码 内容 printf '{"type":"SC 阅读全文

posted @ 2019-01-09 16:16 荣锋亮 阅读(451) 评论(0) 推荐(0) 编辑

Singer 学习七 运行&&开发taps、targets (二 targets 运行说明)
摘要:接上文: Singer 学习六 运行&&开发taps、targets (一 taps 运行说明) 说明target 需要tap 进行配合运行,所以需要了解tap 的使用 运行target 创建tap 可以参考上文 (1). 创建一个python3 的虚拟环境,并激活 python3 -m venv 阅读全文

posted @ 2019-01-09 15:25 荣锋亮 阅读(326) 评论(0) 推荐(0) 编辑

Singer 学习六 运行&&开发taps、targets (一 taps 运行说明)
摘要:文章内容来来自官方github 说明: singer大部分的taps && targets 是用python编写的,所以内容里面的代码也是使用python 编写 使用python运行singer 运行singer 必须安装python 3.5 以及以上的版本,推荐的方式是使用python 的virt 阅读全文

posted @ 2019-01-09 15:13 荣锋亮 阅读(389) 评论(0) 推荐(0) 编辑

Singer 学习五 docker 运行说明
摘要:介绍过一个工具knots ,方便Singer 可视化开发的工具,但是默认这个工具包含的tap 以及target 比较少(可以自己扩展) 同时这个工具就是基于docker 运行的 docker 运行的几点说明 使用交互模式 开发环境建议使用数据卷挂载的模式 生产环境我们可以直接按照tag 进行打包 d 阅读全文

posted @ 2019-01-09 13:19 荣锋亮 阅读(528) 评论(0) 推荐(0) 编辑

Singer 学习四 可视化数据操作工具
摘要:knots 是一款基于electron 开发的可视化UI界面,我们可以此工具进行方便的数据处理,注意工具使用了 docker 运行,需要安装docker 下载地址 https://github.com/singer-io/knots/releases https://github.com/singe 阅读全文

posted @ 2019-01-09 08:23 荣锋亮 阅读(557) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示