随笔分类 -  数据分析

1 2 3 4 5 ··· 56 下一页

datachain 简单试用
摘要:主要是一个体验,内容来自官方文档 参考代码 app.py from datachain import Column, DataChain meta = DataChain.from_json("gs://datachain-demo/dogs-and-cats/*json", object_name 阅读全文

posted @ 2025-03-04 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

datachain ai 友好的python etl以及分析包
摘要:datachain 提供了方便进行多模态ai 数据的etl 以及分析能力 使用场景 多模态的数据准备以及数据治理 生成式ai 数据分析 特性 多模态数据集版本支持,支持数据以及元数据的统一持久化管理 python 友好,支持并行高效内存计算 数据增强以及处理,基于本地ai 模型或者llm api 生 阅读全文

posted @ 2025-03-03 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

mindsdb dbt 扩展简单说明
摘要:mindsdb 提供了dbt 的adapter 利用了dbt 自定义物化的macro 实现一些资源的创建 目前提供的能力 支持integration predictor table 参考使用 一个简单示例 {{ config( materialized='integration', engine=' 阅读全文

posted @ 2025-02-22 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

mindsdb 的一些sql command
摘要:主要是学习中的一个记录,发现mindsdb 中的一些 项目操作相关sql 创建项目&&查看&&移除 CREATE PROJECT [IF NOT EXISTS] project_name; SHOW DATABASES WHERE type = 'project'; DROP PROJECT [IF 阅读全文

posted @ 2025-02-21 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

mindsdb handlers 类型简单说明
摘要:mindsdb 按照设计,对于handler 分为了两大类(官方文档的介绍),data handlers 以及ml handlers,但是实际上从github 上的介绍来说还包含一个app handlers ,以下对于几种handler 作一个简单的说明 data handlers 作为数据库与mi 阅读全文

posted @ 2025-02-20 08:00 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

mindsdb permanent_storage 简单说明
摘要:mindsdb 有一个permanent_storage 的配置,目前包含了三种模式,absent 不进行持久化,local 使用本地的,s3使用对象存储 配置参考 { "permanent_storage": { "location": "local" "bucket": "s3_bucket_n 阅读全文

posted @ 2025-02-19 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

mindsdb 支持的一些环境变量
摘要:mindsdb 支持基于环境变量的一些参数配置,比如认证密码的,db连接的,当然也都是可以通过配置指定的 认证相关的 export MINDSDB_USERNAME='mindsdb_user' export MINDSDB_PASSWORD='mindsdb_password' 存储相关的 exp 阅读全文

posted @ 2025-02-18 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

mindsdb 启动配置简单说明
摘要:mindsdb 启动命令包含了基于cli的默认配置,以及支持自定义配置的基于json文件的 默认启动配置 cli 参数 usage: __main__.py [-h] [--api API] [--config CONFIG] [--install-handlers INSTALL_HANDLERS 阅读全文

posted @ 2025-02-16 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

mindsdb ai 数据平台
摘要:mindsdb 是基于python 开发的ai 数据平台,提供了基于sql的模型训练,微调,部署,版本控制等能力,应用的访问 上mindsdb 提供了rest api,mysq 协议,mongo协议,python 以及js sdk 等 包含的特性 接近200个集成包含了db 以及ai,ml 框架 支 阅读全文

posted @ 2025-02-15 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

Daft UDF 简单说明
摘要:Daft 内部UDF 相比apply 提供了不少优化 apply 的使用 参考 df.with_column( "flattened_image", df["image"].apply(lambda img: img.flatten(), return_dtype=daft.DataType.pyt 阅读全文

posted @ 2025-02-14 08:00 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

Daft delta lake dremio 集成一些问题
摘要:一些问题 com.dremio.common.exceptions.UserException: Failed to read metadata for delta dataset /warehouse/myappdemo. Deltalake format version 3 is not sup 阅读全文

posted @ 2025-02-13 08:00 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

Daft delta lake 集成简单试用
摘要:Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity 以下是本地简单试用,对于基于unitycatalog的后边介绍下 简单试用 本地写入 import daft df = daft 阅读全文

posted @ 2025-02-12 08:00 荣锋亮 阅读(2) 评论(0) 推荐(0) 编辑

Daft nessie rest catalog + dremio 集成代码简单说明
摘要:以前简单说明过集成玩法,以下通过代码示例简单说明下集成 nessie + dremio 部署 基于docker-compose 部署 docker-compose 一些参考可以参考我以前关于dremio 以及nessie 的一些介绍 version: "3" services: zk: image: 阅读全文

posted @ 2025-02-11 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Daft nessie rest catalog + dremio 集成
摘要:Daft 内部使用了pyiceberg 进行iceberg 的表操作,对于具体的catalog 都是pyiceberg 内部的能力,实际上我们可以直接集成nessie, 目前pyiceberg 对于rest catalog 支持的比较好,同时nessie 也支持rest catalog 了,以下是一 阅读全文

posted @ 2025-02-10 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

Daft 集成ray 测试
摘要:通过集成ray 可以让Daft 实现分布式调度能力,以下是一个简单测试, ray 使用了本地模式 集成ray 测试 代码 是一个访问iceberg的示例代码 import daft import daft.context import ray ray.init() from pyiceberg.ca 阅读全文

posted @ 2025-02-09 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

Daft 集成iceberg 测试
摘要:Daft 就用pyiceberg 提供了对于iceberg 的集成,以下是一个简单测试 准备iceberg 表 直接基于了本地数据存储 参考代码 import daft from pyiceberg.catalog.sql import SqlCatalog as ISqlCatalog impor 阅读全文

posted @ 2025-02-07 08:00 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

PyTables 基于hdf5 以及numpy 分层数据集包
摘要:PyTables 基于hdf5 以及numpy 分层数据集包,pandas 内部对于hdf5格式的处理就是基于了此包 包含的特性 支持表实体操作 多维以及表单元嵌入支持 表列支持索引操作 支持基于numpy 的数字数组 可扩展数组 可变长度数组 支持层级结构数据模型 用户定义元数据 支持读以及修改通 阅读全文

posted @ 2025-02-06 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

PyTables 提供的一些工具
摘要:PyTables 提供了一些工具,可以方便查看以及分析生成的文件,以下是一个简单说明 ptdump 提供了查看数据以及元数据信息 命令 usage: ptdump [-h] [-v] [-d] [-a] [-s] [-c] [-i] [-R RANGE] filename[:nodepath] Th 阅读全文

posted @ 2025-02-05 08:00 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

hdf5 存储格式
摘要:hdf5是一种用于存储和管理大规模数据集的文件格式,广泛应用在数据科学中,pandas 等一些dataframe 框架提供了直接读写处理 包含的特点 层次化结构: HDF 文件可以组织成类似文件系统的层次结构,包含“组”和“数据集”。 组相当于文件夹,数据集相当于文件。 跨平台支持: HDF 文件在 阅读全文

posted @ 2025-02-04 08:00 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

Daft sql查询数据库处理简单说明
摘要:此sql 不是Daft 对于dataframe 的sql 查询处理,而是对于database 数据源的查询处理,以下是一些简单数名 简单说明 支持20+ 数据库方言,基于了sqlGlot,当然处理部分有基于connector-x的以及sqlalchemy的,默认使用connector-x 对于不支持 阅读全文

posted @ 2025-02-03 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 56 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示