datachain 简单试用

主要是一个体验,内容来自官方文档

参考代码

  • app.py
from datachain import Column, DataChain

meta = DataChain.from_json("gs://datachain-demo/dogs-and-cats/*json", object_name="meta")
images = DataChain.from_storage("gs://datachain-demo/dogs-and-cats/*jpg")

images_id = images.map(id=lambda file: file.path.split('.')[-2])
annotated = images_id.merge(meta, on="id", right_on="meta.id")

likely_cats = annotated.filter((Column("meta.inference.confidence") > 0.93) \
                               & (Column("meta.inference.class_") == "cat"))
likely_cats.export_files("high-confidence-cats/", signal="file")
  • 效果

注意因为示例使用了gcs,注意网络

说明

实际datachain来自dvc 团队,这个是一个进行数据版本的python 框架,主要面向机器学习领域,对于其他玩法后边会介绍下,因为内部基于了dvc,可以支持各类云存储(基于fsspec)

参考资料

https://dvc.org/

https://github.com/iterative/datachain

https://docs.datachain.ai/

posted on   荣锋亮  阅读(5)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
历史上的今天:
2024-03-04 minio sql 查询parquet文件
2024-03-04 dremio 查询执行阶段简单说明
2022-03-04 dremio arp BaseTestQuery 类windows 系统问题
2022-03-04 dremio 内置的一些默认配置参数
2022-03-04 dremio 的ArpDialect 简单介绍
2021-03-04 pyroscope 参考使用
2021-03-04 pyroscope 很不错的基于golang 的火焰图分析工具

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示