数据分析 - 随笔分类(第2页) - 荣锋亮

Daft io配置简单说明

摘要：很多时候我们希望取访问外部存储，但是外部存储是需要一些配置信息的，比如s3，Daft 对于配置的处理有两种模式，全局以及特定数据处理任务，以下简单说明下全局模式通过设置Daft 的计划信息，提供默认io 配置参考配置之后后续的处理就不要进行而外的io 访问配置了,比如适合有统一的io 配置信阅读全文

posted @ 2025-02-02 08:00 荣锋亮阅读(6) 评论(0) 推荐(0) 编辑

Daft s3 集成试用

摘要：daft 支持不少存储数据的访问，以下是关于s3的一个简单试用环境准备 docker-compose services: minio: image: minio/minio command: server /data --console-address ":9001" ports: - 9000: 阅读全文

posted @ 2025-02-01 08:00 荣锋亮阅读(7) 评论(0) 推荐(0) 编辑

zenoh flow python sdk 简单说明

摘要：zenoh flow 是zenoh 团队提供的面向data flow 的编程框架，可以提供灵活的进行数据处理，zenoh flow 提供了基于rust 以及python 的扩展能力，我们只需要进行flow 的yaml 定义就可以灵活的进行数据处理，基于rust的开发模式可能比较费事，而且有难度，ze 阅读全文

posted @ 2025-01-15 08:00 荣锋亮阅读(11) 评论(0) 推荐(0) 编辑

Daft 基于rust 开发的分布式数据引擎

摘要：Daft 是基于rust开发的分布式数据引擎，可以提供sql 以及python 的dataframe接口，可以应用在数据工程，分析，机器学习以及ai 场景包含的集成云存储集成，主要是s3，当然对于s3兼容的也是可以的集成pytorch，numpy 集成，方便机器学习以及ai 周边的数据湖周边阅读全文

posted @ 2024-12-24 08:00 荣锋亮阅读(50) 评论(0) 推荐(0) 编辑

drasi-platform 数据变动跟踪平台

摘要：drasi-platform 是一个面向变动数据处理的数据平台参考架构如下图，drasi 包含了source，continuouts query，reactions 等几个核心概念说明开发语言上drasi 使用了rust，cdc 部分集成了debezium，对于continuouts que 阅读全文

posted @ 2024-12-23 08:00 荣锋亮阅读(28) 评论(0) 推荐(0) 编辑

dbt 1.9 发布

摘要：dbt 1.9 发布了，比较重大的更新是对于increamenaal 的mcirobatch 支持以及新的snapshots 配置指南说明以上几个新特性以及修改官方已经有一些介绍了，很值得学习下，后边会简单介绍下参考资料 https://www.getdbt.com/blog/dbt-core 阅读全文

posted @ 2024-12-19 09:08 荣锋亮阅读(18) 评论(0) 推荐(0) 编辑

pydiverse.pipedag 一个快速数据pipeline 调度库

摘要：pydiverse.pipedag 实际上就是一个python包，可以用来实现data pipeline 的调度，内部集成了cache，同时可以集成pandas，polars，sqlalchemy，ibis 等框架说明对于简单的data pipeline 场景（一般是单机玩法），基于pydive 阅读全文

posted @ 2024-12-12 08:00 荣锋亮阅读(20) 评论(0) 推荐(0) 编辑

connector-x db数据快速加载到dataframe的库

摘要：connector-x db数据快速加载到dataframe的库，支持不少数据库的到dataframe 数据的写入支持的数据库 pg mysql mariadb sqlite redshift clickhouse sql server azure sql database oracle big 阅读全文

posted @ 2024-12-02 08:06 荣锋亮阅读(32) 评论(0) 推荐(0) 编辑

paradedb 基于pg 的搜索以及分析方案

摘要：paradedb 是一个替换es 的可选方案包含的能力搜索，支持基于BM25（基于pg_search）的全文检索，以及pgvector 的向量处理，以及混合搜索分析，基于pg_analytics 的分析查询引擎支持自托管模式部署支持特殊工作负载场景，postgis，pg_cron, pg 阅读全文

posted @ 2024-11-02 08:00 荣锋亮阅读(139) 评论(0) 推荐(0) 编辑

rill 基于duckdb 的快速bi 工具

摘要：rill 是基于duckdb 的快速bi 工具参考架构包含了提取，加载，查询，过滤，包含了etl，内存存储，以及操作型bi 说明 rill server 基于golang 开发，web 上使用了Sveltekit，rill 设计上很值得学习参考，抽象了不少自己的yaml schema 灵活性上很阅读全文

posted @ 2024-10-30 08:00 荣锋亮阅读(53) 评论(0) 推荐(0) 编辑

pyfilesystem python 通用文件系统抽象

摘要：pyfilesystem python 通用文件系统抽象包，对于统一基于文件的数据操作比较方便目前一些内置的文件系统 app 文件系统 ftp 文件系统 memory 文件 mount 文件系统 multi 文件系统 os 文件系统 sub 文件系统 tar 文件系统 temporary 文件系统阅读全文

posted @ 2024-10-17 06:12 荣锋亮阅读(31) 评论(0) 推荐(0) 编辑

fsspec jinaj2 loader 简单说明

摘要：为了方便使用，我简单提取了jinja2 fspsec loader 的代码，开发成为一个pip 包，方便使用代码 fsspec_loader.py from __future__ import annotations import pathlib from typing import TYPE_C 阅读全文

posted @ 2024-10-15 06:57 荣锋亮阅读(12) 评论(0) 推荐(0) 编辑

kedro ossfs 支持说明

摘要：kedro 是基于fsspec 进行内部文件处理的，但是在对于是cloud remote 文件系统的时候是基于白名单处理的有缺陷，对于oss 支持就有问题（比如解析bucket），解决方法很多，一种是直接修改kedro.io.core 中的CLOUD_PROTOCOLS，还有一种就是通过python 阅读全文

posted @ 2024-10-05 06:27 荣锋亮阅读(7) 评论(0) 推荐(0) 编辑

kedro IncrementalDataset 简单说明

摘要：IncrementalDataset 实现了一种增量数据处理的能力，基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性，对于 checkpoint 可以配置自己的函数参考定义参考catalog 定义 my_partitioned_dataset: t 阅读全文

posted @ 2024-10-01 08:00 荣锋亮阅读(6) 评论(0) 推荐(0) 编辑

kedro 的PartitionedDataset简单说明

摘要：kedro 的PartitionedDataset是一个比较强大的数据集处理模块，支持数据的分片加载以及分片写入能力，以下简单说明下数据分片读取能力参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮阅读(9) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理

摘要：主要是一个简单演示，基于petl remote source 能力，实现本地csv 数据读取之后写入远端oss 中参考代码注意需要明确使用remote source，petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮阅读(10) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架

摘要：petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单，性能上以及对于处理大数据集可能不是很适合，就是需要使用dask，pandas 等这类的 etl 能力基于了延迟计算的能力函数以及面向对象的编程方式交互式使用可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮阅读(73) 评论(0) 推荐(0) 编辑

通过ossfs fsspec 扩展访问oss 数据

摘要：尽管oss 对于s3 客户端具有兼容性，直接通过s3fs 是可以直接访问oss 的，但是有不少缺陷（比如ls 的支持就有问题）ossfs 是基于oss client 实现的标准 fsspec 扩展，使用上很不错，对于文件系统常见操作支持的很好，以下是一个简单使用说明参考使用安装 pip inst 阅读全文

posted @ 2024-09-26 08:14 荣锋亮阅读(81) 评论(0) 推荐(0) 编辑

kedro package 项目运行内部处理

摘要：kedro package 会将开发的data pipeline 项目构建为一个标准的python whl 格式包（build 模块），之后我们就可以直接基于项目模块运行开发的pipeline 了，以下简单说明下内部处理项目结构为了将kedro pipeline 项目提供为一个可以通过模块直接运阅读全文

posted @ 2024-09-26 08:00 荣锋亮阅读(21) 评论(0) 推荐(0) 编辑

kedro parameters 简单使用

摘要：kedro 的parameters还是比较强大的，我们直接可以基于配置，或者运行时定义就可以方便的使用配置参数，以下是使用的简单说明定义parameters 一般是在conf/base/parameters.yml 中，当然也可以配置特定pipeline 的parameters 参考 name: 阅读全文

posted @ 2024-09-25 05:56 荣锋亮阅读(15) 评论(0) 推荐(0) 编辑

随笔分类 - 数据分析

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4873)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维