datachain 简单试用
主要是一个体验,内容来自官方文档
参考代码
- app.py
from datachain import Column, DataChain
meta = DataChain.from_json("gs://datachain-demo/dogs-and-cats/*json", object_name="meta")
images = DataChain.from_storage("gs://datachain-demo/dogs-and-cats/*jpg")
images_id = images.map(id=lambda file: file.path.split('.')[-2])
annotated = images_id.merge(meta, on="id", right_on="meta.id")
likely_cats = annotated.filter((Column("meta.inference.confidence") > 0.93) \
& (Column("meta.inference.class_") == "cat"))
likely_cats.export_files("high-confidence-cats/", signal="file")
- 效果
注意因为示例使用了gcs,注意网络
说明
实际datachain来自dvc 团队,这个是一个进行数据版本的python 框架,主要面向机器学习领域,对于其他玩法后边会介绍下,因为内部基于了dvc,可以支持各类云存储(基于fsspec)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
2024-03-04 minio sql 查询parquet文件
2024-03-04 dremio 查询执行阶段简单说明
2022-03-04 dremio arp BaseTestQuery 类windows 系统问题
2022-03-04 dremio 内置的一些默认配置参数
2022-03-04 dremio 的ArpDialect 简单介绍
2021-03-04 pyroscope 参考使用
2021-03-04 pyroscope 很不错的基于golang 的火焰图分析工具