随笔分类 -  数据集成

上一页 1 2 3 4 5 6 7 ··· 24 下一页

kedro 简单试用
摘要:主要是一个简单学习试用 环境准备 安装kedro python -m venv venv source venv/bin/activate pip install kedro minio s3 存储 为了方便测试使用了s3 进行数据存储,注意需要同时安装 version: "3" services: 阅读全文

posted @ 2024-09-20 06:02 荣锋亮 阅读(38) 评论(0) 推荐(0) 编辑

kedro 创建模块化数据科学pipeline 的python 框
摘要:kedro 创建模块化数据科学pipeline 的python 框架 包含的特性 pipeline 可视化,基于了kedro-viz data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大 周边集成,可以方便的与apache airflow, 阅读全文

posted @ 2024-09-19 08:00 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

dremio 25.1 发布
摘要:就在今天dremio 发布了25.1 版本(社区版)同时提供了docker镜像以及下载地址 说明 目前官方还缺少release note 说明,目前来说github 代码尽管提交了,但是不是新的(只更新了maven package version),从简单测试上,的确有一些bug 修复,但是目前官方 阅读全文

posted @ 2024-09-05 18:45 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

一些不错的LLM 结构化输出库
摘要:结构化输出对于LLM 是一个比较重要的功能,以下是一个开源不错的工具,可以方便使用 简单说明 outlines以及instructor 是很不错的工具对于基于api 的推荐使用instructor,kor 以及langchain 集成比较好guardrails 也算是一个不错的工具提供了结构化输出的 阅读全文

posted @ 2024-09-02 08:00 荣锋亮 阅读(152) 评论(0) 推荐(0) 编辑

schemacrawler 免费开源的数据库schema 发现以及理解工具
摘要:schemacrawler 是基于java 开发的免费开源的数据库schema 发现以及理解工具 schemacrawler 包含的几个周边 cli 提供了cli 我们可以方便的处理不同数据库的处理,同时支持输出为html,json,yaml java api 通过java api 可以方便的通过p 阅读全文

posted @ 2024-07-31 07:58 荣锋亮 阅读(182) 评论(0) 推荐(0) 编辑

chdb 简单试用
摘要:通过python 模式包体验下chdb 参考使用 安装依赖 pip install chdb 简单代码 from chdb.session import Session db = Session('./db') db.query("CREATE DATABASE if not exists db") 阅读全文

posted @ 2024-07-15 07:39 荣锋亮 阅读(57) 评论(0) 推荐(0) 编辑

Crunchy Bridge 通过duckdb 对于pg 进行扩展
摘要:Crunchy 最近发布了一个Crunchy Bridge 的服务,通过duckdb 扩展了pg 对于数据分析的能力,官方发布的内容值得学习下 参考玩法 说明 实际上目前社区也有一个pg 的duckdb_fdw ,也值得体验下,Crunchy Bridge 不是一个fdw 扩展,反而是使用了类似ci 阅读全文

posted @ 2024-07-14 08:00 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

chdb 基于clickhouse 的进程olap 引擎 基于clickhouse 的进程olap 引擎
摘要:chdb 是基于clickhouse 的进程olap 引擎 包含的特性 基于clickhouse 的进程内的sql olap 引擎 serverless,不需要安装clickhouse 服务 通过python memoryview 的最小c++ python 数据拷贝 输入以及输出支持parquet 阅读全文

posted @ 2024-07-13 07:41 荣锋亮 阅读(90) 评论(0) 推荐(0) 编辑

dremio 25.0.5 社区版下载提供了
摘要:就在昨天dremio 提供了社区版的下载地址,此版本的变动核心是一些fix,新功能并不多 说明 目前源码暂时还没push 到github,同时docker 镜像也暂时未提供,后边体验下 参考资料 https://docs.dremio.com/current/release-notes/versio 阅读全文

posted @ 2024-07-12 07:51 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

polaris-catalog 即将开源的apache iceberg catalog 服务
摘要:polaris-catalog是snowflake 即将开源的apache iceberg catalog 服务,实现上基于了iceberg 的rest api,这样就可以实现多引擎的数据处理,而不用进行数据的移动 参考多引擎集成 说明 从机制上也是支持dremio 的,但是因为databricks 阅读全文

posted @ 2024-07-12 06:08 荣锋亮 阅读(109) 评论(0) 推荐(0) 编辑

scrapy + browserless 集成简单说明
摘要:以前简单说明过scrapy 集成s3 feed exports 的配置,以下是集成browserless 的处理,通过browserless 进行数据内容的处理(尤其适合包含了基于ajax的请求,以及延迟加载的项目) 项目准备 主要是s3以及browserless docker-compose ve 阅读全文

posted @ 2024-07-05 07:31 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

unitycatalog datagrics 开源的data&ai 多模catalog
摘要:unitycatalog datagrics 开源的data&ai 多模catalog 包含的特性 支持任意格式、引擎、资产的多摸接口 支持包含了delta lake,iceberg,uniform,paquert,csv。。。等格式,超越表,支持非结构化数据以及ai 资产,插件化的架构,可以支持h 阅读全文

posted @ 2024-06-16 10:15 荣锋亮 阅读(37) 评论(0) 推荐(0) 编辑

ibis python dataframe 库
摘要:ibis是一个 python dataframe 库 包含的特性 对 20 多个后端使用相同的 API 具有嵌入式 DuckDB(默认)、Polars 或 DataFusion 的快速本地数据帧 修改一行代码即可本地迭代、远程部署 编写 SQL 和 Python 数据框代码,弥合数据工程和数据科学之 阅读全文

posted @ 2024-06-06 08:00 荣锋亮 阅读(104) 评论(0) 推荐(0) 编辑

dremio AuthProvider 简单说明
摘要:AuthProvider 是在authenticator 模块中提供的接口定义,目前实现包括了LocalUsernamePasswordAuthProvider以及DremioAccessTokenAuthProviderLocalUsernamePasswordAuthProvider 是目前社区 阅读全文

posted @ 2024-05-07 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio 读取 jsonl 格式支持
摘要:实际上属于dremio 社区一个问题,内部实际上是dremio 对于格式化插件支持的问题, 不少是基于文件格式硬编码的,尽管 我们可以自定义格式化插件,但是对于已经支持的就有点不是很方便了,可以直接复用现有的,以下说明下修改以及处理 直接修改JSONFormatPlugin 代码支持jsonl 参考 阅读全文

posted @ 2024-05-02 11:31 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio 一个元数据刷新问题
摘要:以前关于dremio 元数据刷新的也简单介绍过,最近发现dremio 新版本(从24.1 版本开始)有一些调整,废弃了,所有数据集的刷新配置 只支持基于查询的元数据刷新,一些关于此调整一些说明 好处 减少了元数据刷新的时间以及对于查询的影响,可以让查询阶段的元数据处理更快了(核心是减少查询处理) 减 阅读全文

posted @ 2024-04-17 00:15 荣锋亮 阅读(35) 评论(0) 推荐(0) 编辑

windmill Airplane&Superblocks&Retool&Prefect&Airflow 可选工具
摘要:现在调度工具是越来越多了,而且集成的能力也越来越强大了windmill 是一个很不错的workflow 调度平台功能很强大 特性 可扩展的执行runtime,支持跨语言代码执行 强大的调度器,支持基于低代码以及yaml 模式 通过app builder 使用低代码或者js 框架开发面向数据的dash 阅读全文

posted @ 2024-04-13 09:11 荣锋亮 阅读(65) 评论(0) 推荐(0) 编辑

dremio 25.0 版本的一些问题
摘要:就是最近dremio 25.0 发布了,昨天在体验了之后似乎一些功能与实际的说明是不太一样的(也可能是社区版的问题) 一些问题 注意jdk8 不支持了,最低是jdk 11 了 nessie catalog ga 了(生产可用) 官方的说法是支持基于api 以及ALTER TABLE , ALTER 阅读全文

posted @ 2024-04-11 11:30 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

dremio 25.0 发布
摘要:就在最近dremio 发布了25.0 版本,新的特性很多,同时也有不少历史问题的fix,完整信息可以参考官方文档 说明 等后边体验之后说明下新特性的功能 参考资料 https://docs.dremio.com/current/release-notes/version-250-releasehtt 阅读全文

posted @ 2024-04-10 10:28 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

RudderStack 开源CDP 平台
摘要:RudderStack是基于golang 开发的开源CDP 平台 包含的特性 event streaming 支持16+ sdk profiles 快速基于dw 或者data lake 构建客户画像 reverse etl 支持反向etl 数据治理 支持增强追踪,方便对于一些隐私数据的管理 even 阅读全文

posted @ 2024-04-02 13:07 荣锋亮 阅读(199) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 24 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示