随笔分类 -  数据分析

上一页 1 2 3 4 5 6 ··· 56 下一页

Daft io配置简单说明
摘要:很多时候我们希望取访问外部存储,但是外部存储是需要一些配置信息的,比如s3,Daft 对于配置的处理有两种模式,全局以及特定数据处理任务,以下简单说明下 全局模式 通过设置Daft 的计划信息,提供默认io 配置 参考配置 之后后续的处理就不要进行而外的io 访问配置了,比如适合有统一的io 配置信 阅读全文

posted @ 2025-02-02 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

Daft s3 集成试用
摘要:daft 支持不少存储数据的访问,以下是关于s3的一个简单试用 环境准备 docker-compose services: minio: image: minio/minio command: server /data --console-address ":9001" ports: - 9000: 阅读全文

posted @ 2025-02-01 08:00 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

zenoh flow python sdk 简单说明
摘要:zenoh flow 是zenoh 团队提供的面向data flow 的编程框架,可以提供灵活的进行数据处理,zenoh flow 提供了基于rust 以及python 的扩展能力,我们只需要进行flow 的yaml 定义就可以灵活的进行数据处理,基于rust的开发模式可能比较费事,而且有难度,ze 阅读全文

posted @ 2025-01-15 08:00 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

Daft 基于rust 开发的分布式数据引擎
摘要:Daft 是基于rust开发的分布式数据引擎,可以提供sql 以及python 的dataframe接口,可以应用在数据工程,分析,机器学习以及ai 场景 包含的集成 云存储集成,主要是s3,当然对于s3兼容的也是可以的 集成pytorch,numpy 集成,方便机器学习以及ai 周边的 数据湖周边 阅读全文

posted @ 2024-12-24 08:00 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

drasi-platform 数据变动跟踪平台
摘要:drasi-platform 是一个面向变动数据处理的数据平台 参考架构 如下图,drasi 包含了source,continuouts query,reactions 等几个核心概念 说明 开发语言上drasi 使用了rust,cdc 部分集成了debezium,对于continuouts que 阅读全文

posted @ 2024-12-23 08:00 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

dbt 1.9 发布
摘要:dbt 1.9 发布了,比较重大的更新是对于increamenaal 的mcirobatch 支持以及新的snapshots 配置指南 说明 以上几个新特性以及修改官方已经有一些介绍了,很值得学习下,后边会简单介绍下 参考资料 https://www.getdbt.com/blog/dbt-core 阅读全文

posted @ 2024-12-19 09:08 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

pydiverse.pipedag 一个快速数据pipeline 调度库
摘要:pydiverse.pipedag 实际上就是一个python包,可以用来实现data pipeline 的调度,内部集成了cache,同时可以集成pandas,polars,sqlalchemy,ibis 等框架 说明 对于简单的data pipeline 场景(一般是单机玩法),基于pydive 阅读全文

posted @ 2024-12-12 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

connector-x db数据快速加载到dataframe的库
摘要:connector-x db数据快速加载到dataframe的库,支持不少数据库的到dataframe 数据的写入 支持的数据库 pg mysql mariadb sqlite redshift clickhouse sql server azure sql database oracle big 阅读全文

posted @ 2024-12-02 08:06 荣锋亮 阅读(32) 评论(0) 推荐(0) 编辑

paradedb 基于pg 的搜索以及分析方案
摘要:paradedb 是一个替换es 的可选方案 包含的能力 搜索,支持基于BM25(基于pg_search) 的全文检索,以及pgvector 的向量处理,以及混合搜索 分析,基于pg_analytics 的分析查询引擎 支持自托管模式部署 支持特殊工作负载场景,postgis,pg_cron, pg 阅读全文

posted @ 2024-11-02 08:00 荣锋亮 阅读(139) 评论(0) 推荐(0) 编辑

rill 基于duckdb 的快速bi 工具
摘要:rill 是基于duckdb 的快速bi 工具 参考架构 包含了提取,加载,查询,过滤,包含了etl,内存存储,以及操作型bi 说明 rill server 基于golang 开发,web 上使用了Sveltekit,rill 设计上很值得学习参考,抽象了不少自己的yaml schema 灵活性上很 阅读全文

posted @ 2024-10-30 08:00 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

pyfilesystem python 通用文件系统抽象
摘要:pyfilesystem python 通用文件系统抽象包,对于统一基于文件的数据操作比较方便 目前一些内置的文件系统 app 文件系统 ftp 文件系统 memory 文件 mount 文件系统 multi 文件系统 os 文件系统 sub 文件系统 tar 文件系统 temporary 文件系统 阅读全文

posted @ 2024-10-17 06:12 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

fsspec jinaj2 loader 简单说明
摘要:为了方便使用,我简单提取了jinja2 fspsec loader 的代码,开发成为一个pip 包,方便使用 代码 fsspec_loader.py from __future__ import annotations import pathlib from typing import TYPE_C 阅读全文

posted @ 2024-10-15 06:57 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

kedro ossfs 支持说明
摘要:kedro 是基于fsspec 进行内部文件处理的,但是在对于是cloud remote 文件系统的时候是基于白名单处理的有缺陷,对于oss 支持就有问题(比如解析bucket),解决方法很多,一种是直接修改kedro.io.core 中的CLOUD_PROTOCOLS,还有一种就是通过python 阅读全文

posted @ 2024-10-05 06:27 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

kedro IncrementalDataset 简单说明
摘要:IncrementalDataset 实现了一种增量数据处理的能力,基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性,对于 checkpoint 可以配置自己的函数 参考定义 参考catalog 定义 my_partitioned_dataset: t 阅读全文

posted @ 2024-10-01 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

kedro 的PartitionedDataset简单说明
摘要:kedro 的PartitionedDataset是一个比较强大的数据集处理模块,支持数据的分片加载以及分片写入能力,以下简单说明下 数据分片读取能力 参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理
摘要:主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架
摘要:petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(73) 评论(0) 推荐(0) 编辑

通过ossfs fsspec 扩展访问oss 数据
摘要:尽管oss 对于s3 客户端具有兼容性,直接通过s3fs 是可以直接访问oss 的,但是有不少缺陷(比如ls 的支持就有问题)ossfs 是基于oss client 实现的标准 fsspec 扩展,使用上很不错,对于文件系统常见操作支持的很好,以下是一个简单使用说明 参考使用 安装 pip inst 阅读全文

posted @ 2024-09-26 08:14 荣锋亮 阅读(81) 评论(0) 推荐(0) 编辑

kedro package 项目运行内部处理
摘要:kedro package 会将开发的data pipeline 项目构建为一个标准的python whl 格式包(build 模块),之后我们就可以直接基于项目模块运行开发的pipeline 了,以下简单说明下内部处理 项目结构 为了将kedro pipeline 项目提供为一个可以通过模块直接运 阅读全文

posted @ 2024-09-26 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

kedro parameters 简单使用
摘要:kedro 的parameters还是比较强大的,我们直接可以基于配置,或者运行时定义就可以方便的使用配置参数,以下是使用的简单说明 定义parameters 一般是在conf/base/parameters.yml 中,当然也可以配置特定pipeline 的parameters 参考 name: 阅读全文

posted @ 2024-09-25 05:56 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 56 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示