随笔分类 -  etl

dbt 0.14.0 试用
摘要:dbt 0.14.0 在最近已经发布了,dbt server 的还是很不错的特性,以下安装试用下几个新功能 环境准备 安装 如果没有安装的: pip install dbt 已经安装的: pip install -U dbt 如果没有安装的: pip install dbt 已经安装的: pip i 阅读全文

posted @ 2019-07-11 15:08 荣锋亮 阅读(833) 评论(0) 推荐(0) 编辑

dbt 0.14.0 发布
摘要:以下内容来自官方博客,新的功能还是很不错的,后边尝试使用下。 参考资料:https://blog.fishtownanalytics.com/dbt-v0-14-0-better-serving-our-users-bf7cdbbcd5d2 Introducing dbt v0.14.0 Today 阅读全文

posted @ 2019-07-11 08:55 荣锋亮 阅读(663) 评论(0) 推荐(0) 编辑

pgloader 学习(九) pg 2 pg 使用with 参数控制同步逻辑
摘要:pgloader 支持比较丰富的配置参数,同时默认数据在同步的时候是会进行索、schema 以及数据的同步对于实际我们可能存在需要进行控制,我们可以通过with 参数方便的处理 参考配置 load 文件 load database from pgsql://postgres:dalong@postg 阅读全文

posted @ 2019-06-27 12:53 荣锋亮 阅读(937) 评论(0) 推荐(0) 编辑

pgloader 学习(八) pg 2 pg 简单demo
摘要:pg 数据到pg 数据的迁移,同时支持名称的变更 环境准备 docker-compose文件 内容偏多可以忽略部分 version: "3" services: pgloader-csv: image: dimitri/pgloader volumes: - "./init-db:/opt/db" 阅读全文

posted @ 2019-06-13 21:11 荣锋亮 阅读(939) 评论(0) 推荐(0) 编辑

pgloader 学习(七) 从归档文件加载数据
摘要:我们可以直接从zip,tar,gzip 文件获取内容 command file 参考格式 LOAD ARCHIVE FROM /Users/dim/Downloads/GeoLiteCity-latest.zip INTO postgresql:///ip4r ​ BEFORE LOAD DO $$ 阅读全文

posted @ 2019-06-13 20:31 荣锋亮 阅读(476) 评论(0) 推荐(0) 编辑

pgloader 学习(六) 加载csv 数据
摘要:关于加载的配置参数都是使用comand file command file 参考格式 LOAD CSV FROM 'GeoLiteCity-Blocks.csv' WITH ENCODING iso-646-us HAVING FIELDS ( startIpNum, endIpNum, locId 阅读全文

posted @ 2019-06-13 20:17 荣锋亮 阅读(863) 评论(0) 推荐(0) 编辑

pgloader 学习(五)pgloader 参考手册
摘要:pgloader将各种来源的数据加载到PostgreSQL中。它可以转换动态读取的数据,并在加载前后提交原始SQL。 它使用COPY PostgreSQL协议将数据流式传输到服务器,并通过填充一对reject.dat和reject.log文件来管理错误 pgloader 的操作,可以使用命令行参数, 阅读全文

posted @ 2019-06-13 14:48 荣锋亮 阅读(4323) 评论(0) 推荐(0) 编辑

pgloader 学习(四)一些简单操作例子
摘要:上边已经说明了pgloader 的基本使用(篇理论),但是对于实际操作偏少,以下是一个简单的操作 不像官方文档那样,我为了方便,直接使用docker-compose 运行,同时这个环境,会在后边大部分场景使用,同时 对于pgloader 的dsl暂时不会仔细说明,后边会有介绍 环境准备 docker 阅读全文

posted @ 2019-06-13 11:13 荣锋亮 阅读(1731) 评论(0) 推荐(0) 编辑

pgloader 学习(三)快速使用
摘要:pgloader 支持多种数据源数据的加载,以下列出简单的操作命令,后边会有详细的使用说明 csv 格式内容加载 预备说明 需要先在pg 数据库创建表 create table districts_longlat ( usps text, geoid text, aland bigint, awat 阅读全文

posted @ 2019-06-13 09:44 荣锋亮 阅读(1272) 评论(0) 推荐(0) 编辑

pgloader 学习(二)特性矩阵&&命令行
摘要:pgloader 对于各种数据库支持的还是很完整的,同时有一套自己的dsl 特性矩阵 操作命令 命令格式 pgloader [<options>] [<command-file>]... pgloader [<options>] SOURCE TARGET pgloader [<options>] 阅读全文

posted @ 2019-06-13 09:24 荣锋亮 阅读(562) 评论(0) 推荐(0) 编辑

pgloader 学习(一)支持的特性
摘要:pgloader 是一个不错的多种格式数据同步到pg 的工具,pgloader 使用postrgresql 的copy 协议进行高效的数据同步处理 特性 加载文件到内容pg 多种数据源格式的支持 csv、fixed 列、dbase、sqlte、ibm ixf、postgresql、mysql、sql 阅读全文

posted @ 2019-06-13 09:19 荣锋亮 阅读(640) 评论(0) 推荐(0) 编辑

pgloader 方便的数据迁移工具
摘要:pgloader 是一个支持多种数据源迁移到pg 数据库的工具,高性能,使用灵活同时作者 也提供了docker 版本的镜像,今年3月份使用此工具的时候,发现好久都没更新了,但是 最近作者有了新版本的发布,同时支持pg to pg,修复了部分bug,同时也有了新的官方 文档。 同时作者提出的Conti 阅读全文

posted @ 2019-06-12 10:00 荣锋亮 阅读(741) 评论(0) 推荐(0) 编辑

My journey introducing the data build tool (dbt) in project’s analytical stacks
摘要:转自:https://www.lantrns.co/my-journey-introducing-the-data-build-tool-dbt-in-projects-analytical-stacks/ Not sure I remember how, but I had the good lu 阅读全文

posted @ 2019-06-05 18:28 荣锋亮 阅读(458) 评论(0) 推荐(0) 编辑

使用singer tap-postgres 同步数据到pg
摘要:singer 是一个很不错的开源etl 解决方案,以下演示一个简单的数据从pg 同步到pg 很简单就是使用tap-postgres + target-postgres 环境准备 对于测试的环境的数据库使用docker-compose 运行 docker-compose 文件 version: "3" 阅读全文

posted @ 2019-06-05 15:07 荣锋亮 阅读(1292) 评论(1) 推荐(0) 编辑

使用singer 转换gitbase 数据到postgresql
摘要:gitbase 是mysql server 的一个实现(主要是用来分析git仓库代码),但是里面好多功能可能并不是很强大(sql 的限制) 我们可以通过singer 的tap-mysql 将数据抽取到标准的pg 数据库,可以方便的使用pg 的好多函数 参考使用 mysql-postgresql 的可 阅读全文

posted @ 2019-05-19 17:05 荣锋亮 阅读(235) 评论(0) 推荐(1) 编辑

Introducing Outflux: a smart way out of InfluxDB
摘要:转自:https://blog.timescale.com/migrate-outflux-a-smart-way-out-of-influxdb/ Migrate your workload from InfluxDB to TimescaleDB with just a single comma 阅读全文

posted @ 2019-04-12 11:17 荣锋亮 阅读(311) 评论(0) 推荐(0) 编辑

使用outflux 导入influxdb 的数据到timescaledb
摘要:influxdb 以及timescaledb 都是不错的时序数据库,timescaledb 团队提供了直接从influxdb 导入 环境准备 docker-compose 文件 version: "3" services: timescaledb: image: timescale/timescal 阅读全文

posted @ 2019-04-12 11:12 荣锋亮 阅读(635) 评论(0) 推荐(0) 编辑

Singer 学习十三 发现模式
摘要:发现模式 发现模式提供了一种描述tap 支持数据流的方式,使用了json schema 做为描述数据的结构以及每个数据流的 类型,发现模式的实现依赖tap 的数据源,有些taps 将硬编码每个流的模式,而其他的将连接到提供可用流的 描述的api,当运行发现模式时,tap 应该写如stdout 流列表 阅读全文

posted @ 2019-01-09 22:36 荣锋亮 阅读(302) 评论(0) 推荐(0) 编辑

Singer 学习十二 指南
摘要:版本0.3.0 tap是一个应用程序,需要一个配置文件和可选的状态文件作为输入,并产生有序的流记录, 状态和模式信息作为输出。 一个记录是任何类型的JSON编码的数据。tap 状态消息用于保留一个调用之间的信息。一个模式消息描述stream 中的 数据类型。Tap可以用任何编程语言实现。 tap设计 阅读全文

posted @ 2019-01-09 19:10 荣锋亮 阅读(421) 评论(0) 推荐(0) 编辑

Singer 学习十一 配置以及状态管理
摘要:配置和状态文件通过提供身份验证信息,开始时间和有关以前调用的信息,帮助为Taps和Targets提供上下文 配置文件 配置文件包含tap 运行需要的信息,通常包含API,以及数据源的凭据 特殊字段 start_data ,首次同步时候使用,指定数据同步的范围 user_agent 提供方便的问题解决 阅读全文

posted @ 2019-01-09 18:50 荣锋亮 阅读(324) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示