随笔分类 -  数据集成

上一页 1 2 3 4 5 6 ··· 24 下一页

drasi-platform 数据变动跟踪平台
摘要:drasi-platform 是一个面向变动数据处理的数据平台 参考架构 如下图,drasi 包含了source,continuouts query,reactions 等几个核心概念 说明 开发语言上drasi 使用了rust,cdc 部分集成了debezium,对于continuouts que 阅读全文

posted @ 2024-12-23 08:00 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

pydiverse.pipedag 一个快速数据pipeline 调度库
摘要:pydiverse.pipedag 实际上就是一个python包,可以用来实现data pipeline 的调度,内部集成了cache,同时可以集成pandas,polars,sqlalchemy,ibis 等框架 说明 对于简单的data pipeline 场景(一般是单机玩法),基于pydive 阅读全文

posted @ 2024-12-12 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

pg_parquet CrunchyData团队开源的pg parquet fdw
摘要:pg_parquet是CrunchyData 团队开源的pg paquet fdw,可以实现parquet 数据通过copy 命令到pg 表中,同时也支持将pg 表写入到parquet 文件中 一些使用场景 就是上边说的,写入或者读取parquet 数据 查看parquet 的元数据以及schema 阅读全文

posted @ 2024-12-11 08:00 荣锋亮 阅读(33) 评论(0) 推荐(0) 编辑

Semantic Metadata 语义元数据
摘要:Semantic Metadata 是orbital 为了进行数据集成提出的一套玩法,同时orbital 也开发了一些框架层的支持(Taxi 进行模型描述) orbital 进行集成开发 Semantic Metadata 的特点 元数据定义了字段内容的契约 平台无关 系统基于此进行特定领域的业务a 阅读全文

posted @ 2024-12-03 08:00 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

connector-x db数据快速加载到dataframe的库
摘要:connector-x db数据快速加载到dataframe的库,支持不少数据库的到dataframe 数据的写入 支持的数据库 pg mysql mariadb sqlite redshift clickhouse sql server azure sql database oracle big 阅读全文

posted @ 2024-12-02 08:06 荣锋亮 阅读(32) 评论(0) 推荐(0) 编辑

crawle web 爬虫&浏览器自动化库
摘要:crawle web 爬虫&浏览器自动化库 包含的特性 js&ts 支持 http 爬取,集成了cheerio 以及jsdom 的解析器 无头浏览器支持 爬取自动proxy 处理 队列以及存储,可以保存文件,快照,json 结果 内部不少方便的工具类,方便数据提取 说明 crawle 同时也提供了p 阅读全文

posted @ 2024-12-02 08:00 荣锋亮 阅读(38) 评论(0) 推荐(0) 编辑

jsonata json 查询以及转换语言
摘要:jsonata json 查询以及转换语言 包含的特性 轻量级 借鉴xpath 3.1 模式的语法 最少语法的复杂表达式支持 支持支持定义函数 内置不少方便数据维护以及合并的操作符以及函数 灵活的结构化输出 说明 原始jsonata 是js 实现,目前也有不少其他语言的实现,比如java 的,jso 阅读全文

posted @ 2024-11-27 08:00 荣锋亮 阅读(74) 评论(0) 推荐(0) 编辑

dora面向数据流的机器人编程框架
摘要:dora面向数据流的机器人编程框架,基于rust 开发,对于内部基于了zenoh 这个网络框架 包含的特性 零开销,基于了arrow 可扩展,支持单机以及分布式,同时基于了yaml进行定义 快速原型开发 内置可观测,支持log,trace,metrics 多语言支持,比如python,rust,c, 阅读全文

posted @ 2024-11-21 08:10 荣锋亮 阅读(83) 评论(0) 推荐(0) 编辑

Orbital 自动集成平台
摘要:Orbital 自动集成平台,Orbital 基于了Taxi 使用了语义元数据理念 包含的特性 不需要编写额外代码进行集成 api 优先 技术无关,支持grpc,rest,kafka,soap 等 自动适配 参考玩法 如下图,使用上与对于语义元数据定义是一致的,首先基于Taxi定义模型契约,然后业务 阅读全文

posted @ 2024-11-19 10:12 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

paradedb 基于pg 的搜索以及分析方案
摘要:paradedb 是一个替换es 的可选方案 包含的能力 搜索,支持基于BM25(基于pg_search) 的全文检索,以及pgvector 的向量处理,以及混合搜索 分析,基于pg_analytics 的分析查询引擎 支持自托管模式部署 支持特殊工作负载场景,postgis,pg_cron, pg 阅读全文

posted @ 2024-11-02 08:00 荣锋亮 阅读(139) 评论(0) 推荐(0) 编辑

rill 基于duckdb 的快速bi 工具
摘要:rill 是基于duckdb 的快速bi 工具 参考架构 包含了提取,加载,查询,过滤,包含了etl,内存存储,以及操作型bi 说明 rill server 基于golang 开发,web 上使用了Sveltekit,rill 设计上很值得学习参考,抽象了不少自己的yaml schema 灵活性上很 阅读全文

posted @ 2024-10-30 08:00 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

dremio 25.2 软件包以及github 源码更新了
摘要:昨天我说了dremio 发布了25.2 提供了新的catalog 支持,之后过了一段时间dremio同时也提供了软件包以及github 源码的更新 说明 25.1 版本构建关于dremio-js 的 私服问题在这次代码中也看到解决了,新功能代码可以看看 参考资料 https://github.com 阅读全文

posted @ 2024-10-26 08:13 荣锋亮 阅读(43) 评论(0) 推荐(0) 编辑

dremio 25.2 发布
摘要:就在昨天dremio 发布了25.2 版本,此版本对于catalog 的支持添加了两个新的(Polaris Catalog 以及Unity Catalog) 说明 其他主要是关于历史bug 的fix 对于新catalog ce 版本实际上只Polaris Catalog ,默认没开启,需要通过plu 阅读全文

posted @ 2024-10-25 23:47 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

dremio 25.1 版本开始支持sql 预编译处理了
摘要:dremio 从25.1 版本开始,支持sql 预编译了,可以更好的提升系统的安全性 参考使用 传统jdbc 模式 Connection conn = DriverManager.getConnection("jdbc:dremio:direct=localhost:31010;schema=sys 阅读全文

posted @ 2024-10-04 14:24 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

kedro IncrementalDataset 简单说明
摘要:IncrementalDataset 实现了一种增量数据处理的能力,基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性,对于 checkpoint 可以配置自己的函数 参考定义 参考catalog 定义 my_partitioned_dataset: t 阅读全文

posted @ 2024-10-01 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

kedro 的PartitionedDataset简单说明
摘要:kedro 的PartitionedDataset是一个比较强大的数据集处理模块,支持数据的分片加载以及分片写入能力,以下简单说明下 数据分片读取能力 参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理
摘要:主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio 25.1 github 代码变动
摘要:dremio 25.1 已经发布了好几个礼拜了,以前说过github 社区版25.1 版本的没有提交最新的,最近看了下github 已经提交新的了 而且这次应该是比较完整的 构建上的一些问题 jdk 依赖 这个保持不变,同时看官方一些信息对于maven 构建已经调整了,有了不错的支持 ui 组件 目 阅读全文

posted @ 2024-09-28 11:30 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架
摘要:petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(73) 评论(0) 推荐(0) 编辑

kedro 参考架构
摘要:内容来自官方文档,主要是一个记录,方便学习使用,通过此图我们可以快速的了解kedro的开发机制以及内部运行,有助于阅读源码对于kedro进行扩展 参考图 说明 上图中包含了kedro project 说明了对于pipeline 开发者的代码结构以及开发流程(一般我们基于标准模版开发就可以了),ked 阅读全文

posted @ 2024-09-22 06:41 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 24 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示