随笔分类 -  数据集成

1 2 3 4 5 ··· 24 下一页

datachain ai 友好的python etl以及分析包
摘要:datachain 提供了方便进行多模态ai 数据的etl 以及分析能力 使用场景 多模态的数据准备以及数据治理 生成式ai 数据分析 特性 多模态数据集版本支持,支持数据以及元数据的统一持久化管理 python 友好,支持并行高效内存计算 数据增强以及处理,基于本地ai 模型或者llm api 生 阅读全文

posted @ 2025-03-03 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

mindsdb dbt 扩展简单说明
摘要:mindsdb 提供了dbt 的adapter 利用了dbt 自定义物化的macro 实现一些资源的创建 目前提供的能力 支持integration predictor table 参考使用 一个简单示例 {{ config( materialized='integration', engine=' 阅读全文

posted @ 2025-02-22 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

mindsdb 的一些sql command
摘要:主要是学习中的一个记录,发现mindsdb 中的一些 项目操作相关sql 创建项目&&查看&&移除 CREATE PROJECT [IF NOT EXISTS] project_name; SHOW DATABASES WHERE type = 'project'; DROP PROJECT [IF 阅读全文

posted @ 2025-02-21 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

mindsdb handlers 类型简单说明
摘要:mindsdb 按照设计,对于handler 分为了两大类(官方文档的介绍),data handlers 以及ml handlers,但是实际上从github 上的介绍来说还包含一个app handlers ,以下对于几种handler 作一个简单的说明 data handlers 作为数据库与mi 阅读全文

posted @ 2025-02-20 08:00 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

mindsdb permanent_storage 简单说明
摘要:mindsdb 有一个permanent_storage 的配置,目前包含了三种模式,absent 不进行持久化,local 使用本地的,s3使用对象存储 配置参考 { "permanent_storage": { "location": "local" "bucket": "s3_bucket_n 阅读全文

posted @ 2025-02-19 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

mindsdb 支持的一些环境变量
摘要:mindsdb 支持基于环境变量的一些参数配置,比如认证密码的,db连接的,当然也都是可以通过配置指定的 认证相关的 export MINDSDB_USERNAME='mindsdb_user' export MINDSDB_PASSWORD='mindsdb_password' 存储相关的 exp 阅读全文

posted @ 2025-02-18 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

mindsdb ai 数据平台
摘要:mindsdb 是基于python 开发的ai 数据平台,提供了基于sql的模型训练,微调,部署,版本控制等能力,应用的访问 上mindsdb 提供了rest api,mysq 协议,mongo协议,python 以及js sdk 等 包含的特性 接近200个集成包含了db 以及ai,ml 框架 支 阅读全文

posted @ 2025-02-15 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

Daft UDF 简单说明
摘要:Daft 内部UDF 相比apply 提供了不少优化 apply 的使用 参考 df.with_column( "flattened_image", df["image"].apply(lambda img: img.flatten(), return_dtype=daft.DataType.pyt 阅读全文

posted @ 2025-02-14 08:00 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

Daft delta lake dremio 集成一些问题
摘要:一些问题 com.dremio.common.exceptions.UserException: Failed to read metadata for delta dataset /warehouse/myappdemo. Deltalake format version 3 is not sup 阅读全文

posted @ 2025-02-13 08:00 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

Daft delta lake 集成简单试用
摘要:Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity 以下是本地简单试用,对于基于unitycatalog的后边介绍下 简单试用 本地写入 import daft df = daft 阅读全文

posted @ 2025-02-12 08:00 荣锋亮 阅读(2) 评论(0) 推荐(0) 编辑

Daft nessie rest catalog + dremio 集成代码简单说明
摘要:以前简单说明过集成玩法,以下通过代码示例简单说明下集成 nessie + dremio 部署 基于docker-compose 部署 docker-compose 一些参考可以参考我以前关于dremio 以及nessie 的一些介绍 version: "3" services: zk: image: 阅读全文

posted @ 2025-02-11 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Daft nessie rest catalog + dremio 集成
摘要:Daft 内部使用了pyiceberg 进行iceberg 的表操作,对于具体的catalog 都是pyiceberg 内部的能力,实际上我们可以直接集成nessie, 目前pyiceberg 对于rest catalog 支持的比较好,同时nessie 也支持rest catalog 了,以下是一 阅读全文

posted @ 2025-02-10 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Daft 集成ray 测试
摘要:通过集成ray 可以让Daft 实现分布式调度能力,以下是一个简单测试, ray 使用了本地模式 集成ray 测试 代码 是一个访问iceberg的示例代码 import daft import daft.context import ray ray.init() from pyiceberg.ca 阅读全文

posted @ 2025-02-09 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

Daft 集成iceberg 测试
摘要:Daft 就用pyiceberg 提供了对于iceberg 的集成,以下是一个简单测试 准备iceberg 表 直接基于了本地数据存储 参考代码 import daft from pyiceberg.catalog.sql import SqlCatalog as ISqlCatalog impor 阅读全文

posted @ 2025-02-07 08:00 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

Daft sql查询数据库处理简单说明
摘要:此sql 不是Daft 对于dataframe 的sql 查询处理,而是对于database 数据源的查询处理,以下是一些简单数名 简单说明 支持20+ 数据库方言,基于了sqlGlot,当然处理部分有基于connector-x的以及sqlalchemy的,默认使用connector-x 对于不支持 阅读全文

posted @ 2025-02-03 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

Daft io配置简单说明
摘要:很多时候我们希望取访问外部存储,但是外部存储是需要一些配置信息的,比如s3,Daft 对于配置的处理有两种模式,全局以及特定数据处理任务,以下简单说明下 全局模式 通过设置Daft 的计划信息,提供默认io 配置 参考配置 之后后续的处理就不要进行而外的io 访问配置了,比如适合有统一的io 配置信 阅读全文

posted @ 2025-02-02 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Daft s3 集成试用
摘要:daft 支持不少存储数据的访问,以下是关于s3的一个简单试用 环境准备 docker-compose services: minio: image: minio/minio command: server /data --console-address ":9001" ports: - 9000: 阅读全文

posted @ 2025-02-01 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

zenoh-flow 基于zenoh的data flow 编程框架
摘要:zenoh-flow 是基于zenoh 的data flow 编程框架,可以实现分布式的flow 编程能力 zenoh-flow 抽象了source,operator,sink 等概念,基于zenoh 实现灵活的数据处理 source 可以基于rust 共享库或者python script 开发 o 阅读全文

posted @ 2024-12-26 08:00 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

Daft 基于rust 开发的分布式数据引擎
摘要:Daft 是基于rust开发的分布式数据引擎,可以提供sql 以及python 的dataframe接口,可以应用在数据工程,分析,机器学习以及ai 场景 包含的集成 云存储集成,主要是s3,当然对于s3兼容的也是可以的 集成pytorch,numpy 集成,方便机器学习以及ai 周边的 数据湖周边 阅读全文

posted @ 2024-12-24 08:00 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

drasi-platform 数据变动跟踪平台
摘要:drasi-platform 是一个面向变动数据处理的数据平台 参考架构 如下图,drasi 包含了source,continuouts query,reactions 等几个核心概念 说明 开发语言上drasi 使用了rust,cdc 部分集成了debezium,对于continuouts que 阅读全文

posted @ 2024-12-23 08:00 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 24 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示