Daft delta lake 集成简单试用

Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity

以下是本地简单试用,对于基于unitycatalog的后边介绍下

简单试用

  • 本地写入
import daft
df = daft.read_parquet("yellow_tripdata_2023-01.parquet")
df.write_deltalake("myappdemov2", mode="append")
  • 本地查询
df = daft.read_deltalake("myappdemov2")
print(df.collect())
  • sql 查询

直接使用Daft 内部的sql 处理

import daft

from daft.sql import SQLCatalog

df = daft.read_deltalake("myappdemov2")

sql_catalog = SQLCatalog({"mydemo":df})

result_df = daft.sql("SELECT * FROM mydemo where VendorID=1",catalog=sql_catalog)

print(result_df.collect())
  • delta lake 表效果

注意目前创建的读版本最小是3,对于其他引擎需要查询的注意

参考资料

https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/delta_lake.html

https://delta-io.github.io/delta-rs/why-use-delta-lake/

https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/unity-catalog.html

https://github.com/unitycatalog/unitycatalog

https://www.unitycatalog.io/

posted on   荣锋亮  阅读(2)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2024-02-12 ruffle 基于webassembly 的flash player 模拟器
2023-02-12 dremio几个rel 术语名词简单说明
2023-02-12 dremio24 版本copy into from 简单说明
2023-02-12 dremio 24 版本对于表优化的处理
2022-02-12 hive metadata 容器镜像
2022-02-12 lakefs metadata 集成
2022-02-12 lakefs 周边生态集成

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示