Daft delta lake 集成简单试用
Daft 对于delta lake 支持本地写入以及基于catalog的,当前内部基于了delta-rs,对于catalog 的支持包含了aws glue 以及unity
以下是本地简单试用,对于基于unitycatalog的后边介绍下
简单试用
- 本地写入
import daft
df = daft.read_parquet("yellow_tripdata_2023-01.parquet")
df.write_deltalake("myappdemov2", mode="append")
- 本地查询
df = daft.read_deltalake("myappdemov2")
print(df.collect())
- sql 查询
直接使用Daft 内部的sql 处理
import daft
from daft.sql import SQLCatalog
df = daft.read_deltalake("myappdemov2")
sql_catalog = SQLCatalog({"mydemo":df})
result_df = daft.sql("SELECT * FROM mydemo where VendorID=1",catalog=sql_catalog)
print(result_df.collect())
- delta lake 表效果
注意目前创建的读版本最小是3,对于其他引擎需要查询的注意
参考资料
https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/delta_lake.html
https://delta-io.github.io/delta-rs/why-use-delta-lake/
https://www.getdaft.io/projects/docs/en/stable/user_guide/integrations/unity-catalog.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2024-02-12 ruffle 基于webassembly 的flash player 模拟器
2023-02-12 dremio几个rel 术语名词简单说明
2023-02-12 dremio24 版本copy into from 简单说明
2023-02-12 dremio 24 版本对于表优化的处理
2022-02-12 hive metadata 容器镜像
2022-02-12 lakefs metadata 集成
2022-02-12 lakefs 周边生态集成