随笔分类 -  etl

pgloader 学习(九) pg 2 pg 使用with 参数控制同步逻辑
摘要:pgloader 支持比较丰富的配置参数,同时默认数据在同步的时候是会进行索、schema 以及数据的同步对于实际我们可能存在需要进行控制,我们可以通过with 参数方便的处理 参考配置 load 文件 load database from pgsql://postgres:dalong@postg 阅读全文

posted @ 2019-06-27 12:53 荣锋亮 阅读(926) 评论(0) 推荐(0) 编辑

pgloader 学习(八) pg 2 pg 简单demo
摘要:pg 数据到pg 数据的迁移,同时支持名称的变更 环境准备 docker-compose文件 内容偏多可以忽略部分 version: "3" services: pgloader-csv: image: dimitri/pgloader volumes: - "./init-db:/opt/db" 阅读全文

posted @ 2019-06-13 21:11 荣锋亮 阅读(930) 评论(0) 推荐(0) 编辑

pgloader 学习(七) 从归档文件加载数据
摘要:我们可以直接从zip,tar,gzip 文件获取内容 command file 参考格式 LOAD ARCHIVE FROM /Users/dim/Downloads/GeoLiteCity-latest.zip INTO postgresql:///ip4r ​ BEFORE LOAD DO $$ 阅读全文

posted @ 2019-06-13 20:31 荣锋亮 阅读(470) 评论(0) 推荐(0) 编辑

pgloader 学习(六) 加载csv 数据
摘要:关于加载的配置参数都是使用comand file command file 参考格式 LOAD CSV FROM 'GeoLiteCity-Blocks.csv' WITH ENCODING iso-646-us HAVING FIELDS ( startIpNum, endIpNum, locId 阅读全文

posted @ 2019-06-13 20:17 荣锋亮 阅读(843) 评论(0) 推荐(0) 编辑

pgloader 学习(五)pgloader 参考手册
摘要:pgloader将各种来源的数据加载到PostgreSQL中。它可以转换动态读取的数据,并在加载前后提交原始SQL。 它使用COPY PostgreSQL协议将数据流式传输到服务器,并通过填充一对reject.dat和reject.log文件来管理错误 pgloader 的操作,可以使用命令行参数, 阅读全文

posted @ 2019-06-13 14:48 荣锋亮 阅读(4220) 评论(0) 推荐(0) 编辑

pgloader 学习(四)一些简单操作例子
摘要:上边已经说明了pgloader 的基本使用(篇理论),但是对于实际操作偏少,以下是一个简单的操作 不像官方文档那样,我为了方便,直接使用docker-compose 运行,同时这个环境,会在后边大部分场景使用,同时 对于pgloader 的dsl暂时不会仔细说明,后边会有介绍 环境准备 docker 阅读全文

posted @ 2019-06-13 11:13 荣锋亮 阅读(1702) 评论(0) 推荐(0) 编辑

pgloader 学习(三)快速使用
摘要:pgloader 支持多种数据源数据的加载,以下列出简单的操作命令,后边会有详细的使用说明 csv 格式内容加载 预备说明 需要先在pg 数据库创建表 create table districts_longlat ( usps text, geoid text, aland bigint, awat 阅读全文

posted @ 2019-06-13 09:44 荣锋亮 阅读(1258) 评论(0) 推荐(0) 编辑

pgloader 学习(二)特性矩阵&&命令行
摘要:pgloader 对于各种数据库支持的还是很完整的,同时有一套自己的dsl 特性矩阵 操作命令 命令格式 pgloader [<options>] [<command-file>]... pgloader [<options>] SOURCE TARGET pgloader [<options>] 阅读全文

posted @ 2019-06-13 09:24 荣锋亮 阅读(559) 评论(0) 推荐(0) 编辑

pgloader 学习(一)支持的特性
摘要:pgloader 是一个不错的多种格式数据同步到pg 的工具,pgloader 使用postrgresql 的copy 协议进行高效的数据同步处理 特性 加载文件到内容pg 多种数据源格式的支持 csv、fixed 列、dbase、sqlte、ibm ixf、postgresql、mysql、sql 阅读全文

posted @ 2019-06-13 09:19 荣锋亮 阅读(627) 评论(0) 推荐(0) 编辑

pgloader 方便的数据迁移工具
摘要:pgloader 是一个支持多种数据源迁移到pg 数据库的工具,高性能,使用灵活同时作者 也提供了docker 版本的镜像,今年3月份使用此工具的时候,发现好久都没更新了,但是 最近作者有了新版本的发布,同时支持pg to pg,修复了部分bug,同时也有了新的官方 文档。 同时作者提出的Conti 阅读全文

posted @ 2019-06-12 10:00 荣锋亮 阅读(723) 评论(0) 推荐(0) 编辑

My journey introducing the data build tool (dbt) in project’s analytical stacks
摘要:转自:https://www.lantrns.co/my-journey-introducing-the-data-build-tool-dbt-in-projects-analytical-stacks/ Not sure I remember how, but I had the good lu 阅读全文

posted @ 2019-06-05 18:28 荣锋亮 阅读(453) 评论(0) 推荐(0) 编辑

使用singer tap-postgres 同步数据到pg
摘要:singer 是一个很不错的开源etl 解决方案,以下演示一个简单的数据从pg 同步到pg 很简单就是使用tap-postgres + target-postgres 环境准备 对于测试的环境的数据库使用docker-compose 运行 docker-compose 文件 version: "3" 阅读全文

posted @ 2019-06-05 15:07 荣锋亮 阅读(1288) 评论(1) 推荐(0) 编辑

使用singer 转换gitbase 数据到postgresql
摘要:gitbase 是mysql server 的一个实现(主要是用来分析git仓库代码),但是里面好多功能可能并不是很强大(sql 的限制) 我们可以通过singer 的tap-mysql 将数据抽取到标准的pg 数据库,可以方便的使用pg 的好多函数 参考使用 mysql-postgresql 的可 阅读全文

posted @ 2019-05-19 17:05 荣锋亮 阅读(228) 评论(0) 推荐(1) 编辑

Introducing Outflux: a smart way out of InfluxDB
摘要:转自:https://blog.timescale.com/migrate-outflux-a-smart-way-out-of-influxdb/ Migrate your workload from InfluxDB to TimescaleDB with just a single comma 阅读全文

posted @ 2019-04-12 11:17 荣锋亮 阅读(306) 评论(0) 推荐(0) 编辑

使用outflux 导入influxdb 的数据到timescaledb
摘要:influxdb 以及timescaledb 都是不错的时序数据库,timescaledb 团队提供了直接从influxdb 导入 环境准备 docker-compose 文件 version: "3" services: timescaledb: image: timescale/timescal 阅读全文

posted @ 2019-04-12 11:12 荣锋亮 阅读(630) 评论(0) 推荐(0) 编辑

Singer 学习十三 发现模式
摘要:发现模式 发现模式提供了一种描述tap 支持数据流的方式,使用了json schema 做为描述数据的结构以及每个数据流的 类型,发现模式的实现依赖tap 的数据源,有些taps 将硬编码每个流的模式,而其他的将连接到提供可用流的 描述的api,当运行发现模式时,tap 应该写如stdout 流列表 阅读全文

posted @ 2019-01-09 22:36 荣锋亮 阅读(298) 评论(0) 推荐(0) 编辑

Singer 学习十二 指南
摘要:版本0.3.0 tap是一个应用程序,需要一个配置文件和可选的状态文件作为输入,并产生有序的流记录, 状态和模式信息作为输出。 一个记录是任何类型的JSON编码的数据。tap 状态消息用于保留一个调用之间的信息。一个模式消息描述stream 中的 数据类型。Tap可以用任何编程语言实现。 tap设计 阅读全文

posted @ 2019-01-09 19:10 荣锋亮 阅读(420) 评论(0) 推荐(0) 编辑

Singer 学习十一 配置以及状态管理
摘要:配置和状态文件通过提供身份验证信息,开始时间和有关以前调用的信息,帮助为Taps和Targets提供上下文 配置文件 配置文件包含tap 运行需要的信息,通常包含API,以及数据源的凭据 特殊字段 start_data ,首次同步时候使用,指定数据同步的范围 user_agent 提供方便的问题解决 阅读全文

posted @ 2019-01-09 18:50 荣锋亮 阅读(322) 评论(0) 推荐(0) 编辑

Singer 学习十 同步模式
摘要:sync 模式是属于tap 的操作,同步模式下,tap 需要提交 schema、 record 、state message, singer 指南对于每种 类型有详细的说明 streams 每个stream 的metadata 包含了详细的用来进行sync 操作的控制说明 replication 方 阅读全文

posted @ 2019-01-09 16:54 荣锋亮 阅读(231) 评论(0) 推荐(0) 编辑

Singer 学习九 运行&&开发taps、targets (四 开发target)
摘要:singer 的target 需要从stdin 的行数据,同时处理schema、record、state 消息 指南 schema 需要进行关联stream records 数据的校验 一旦Target处理了State消息之前流中出现的所有数据,就将状态消息写入stdout。请注意,尽管State消 阅读全文

posted @ 2019-01-09 16:25 荣锋亮 阅读(201) 评论(0) 推荐(0) 编辑

导航