数据集托管平台汇总比较
引言
- 最近考虑构建一些测试数据集评测基准,用于评测算法在数据集上的效果。
- 不同于论文中用到的公开数据集,这里构建的数据集更有针对性的,用户可根据业务具体需求,自行增删,使得在数据集上的指标更加贴近实际业务场景。
- 我这里只是提供一个基准平台,会默认给出一些标注好的数据集。当然,目前只是我的设想,也一直有在做,敬请期待后续更新。
数据集托管平台需要满足的条件:
- 可以用代码轻松下载使用。 举个例子,如果下载公开的数据集,还需要登录相关账号,这就不太方便了。
- 提供数据预览界面, 便于快速评估是否是自己需要的;
- 可以方便对已有数据集做增删改查, 便于大家共同维护。
☆☆☆ 魔搭平台
- 官网
- 魔搭平台似乎是做国内版的Hugging Face,大的基本功能块和Hugging Face均类似。这也算是业界良心了,咱还要啥自行车呢?
- 经过调研,魔搭平台也有数据集管理的功能。除了上述条件1,其余均都满足。
- ✓不满足条件1:轻量下载数据集的包。
通过查看modelscope中数据集使用指南发现,msdatasets
为modelscope
的核心管理模块,这也就意味着:如果想要在modelscope
上下载数据集,就要先安装modelscope
这个巨大的包。这无疑是很不方便,modelscope
依赖众多包,包括torch
、mmcv-full
、tensorflow
等等。- 这一点,我已经向
modelscope
提了issue #369,期待可以变得独立且轻量一些。→ 调研发现直接安装modelscope
,是不会安装上述的依赖的,现在就可以快乐的使用了。
- ✓ 满足条件2:提供了数据预览界面。以OCR-光学字符识别-复旦-中文为例:
- ✓ 满足条件3:方便增删改查。同样也是基于Git搭建管理的,同上,不再赘述。
☆☆☆ Hugging Face Dataset
- 官网
- 该平台目前契合上述所有的条件。只是有一点不好:对国内用户不方便下载。
- ✓ 满足条件1:两行代码轻松下载使用。同时不依赖
transformers
这个巨大的库,很轻量。# pip install datasets from datasets import load_dataset dataset = load_dataset("SWHL/TableRecognition")
- ✓ 满足条件2:提供数据预览界面。下面以zh-plus/tiny-imagenet为例,在Dataset card界面,提供了Dataset Viewer界面,截图如下(具体可自行前往查看):
- ✓ 满足条件3:可以方便对已有数据集做增删改查。因为Hugging Face中所有的功能都是基于Git + Git LFS搭建的,因此天然具有对数据集的版本控制能力。在Hugging Face的Datasets选项卡中创建新的数据集之后,就可以在界面上上传数据集了,非常方便。类似于下图:
☆ OpenDataLab
- 官网
- 国内平台,下载友好。但是对于数据集权限管理过于粗放,全部需要登录注册才可使用。
- ✗ 不满足条件1:代码轻松下载使用。如果想要在平台上使用指定数据集,不管你是数据集的维护者,还是使用者,全部都要注册申请账号。
- ✓ 满足条件2:提供预览界面。经过实际查看,存在个别数据集没有提供,不过不影响有这个功能的判断。以MNIST-M为例:
- ✗ 不满足条件3:方便增删改查。这个平台似乎假定数据集是一个不那么频繁改动的,似乎编辑数据集这块没有做过多接口,下图来自官方文档:
总结
- 当然,除了以上3个之外,也许还会有其他类似功能的平台。欢迎看到的小伙伴指出。
- 综上比较来看,自己还是比较倾向于Hugging Face一些。
如果魔搭可以搞一个轻量的数据集管理包,我会立马转向魔搭的。已经转向魔搭。
-----------------------------------------
你驻足于春色中,于那独一无二的春色之中。