开源数据集与论文代码下载

机器学习开源数据集和论文代码下载

数据集下载

最近需要做一些简单的机器学习测试,首先就是搭建环境,下载安装pytorch。
环境搞定之后就需要获取数据集,为后面的训练做准备。但是像imagenet这种数据集,由于是非商用的,直接从官网下载比较麻烦,需要用edu邮箱注册,然后单线程下载。
但是以我多年bt下载的经验来看,这种大型的数据集文件(1GB~1TB)最好还是用bt下载比较合适,断点续传、p2p等技术完美契合这类数据。
搜索了一下,发现正好有一个团队做的学术种子网站,给需要下载数据集的人提供bt下载。

https://academictorrents.com/collection/imagenet

只需要选择对应的数据集,例如Imagenet,进入页面下载种子即可,下载速度大概在1MB/s左右,速度还算可以。

这个网站是由JOSEPH PAUL COHEN(亚马逊的科学家)、Henry Z Lo、Jonathan Nogueira三位组建和维护。以下是网站的介绍:

Academics Torrents was founded to address the needs of science in the era of big data. It is a scalable platform using BitTorrent which distributes the cost of hosting data in order to prevent the rise and fall of dataset hosting providers and the erasure of the data they host. Researchers are empowered to mirror data they are working with and share large datasets without the large costs typically associated with commercial providers.

可以看出,建立这个网站的目的是为了通过bt下载来降低数据集保存和传输的费用,并且防止数据集的持有者删除这些数据集。研究者们能够很方便的分享和下载数据集,不需要支付阿里云、AWS等云存储厂商高额的费用。

论文代码下载

现在越来越多的顶会论文都会要求开源代码和使用方法,方便后续的研究者做复现和性能对比,特别是AI领域,顶会论文多,大家研究热情高,迭代优化速度非常快,很需要与别人的研究做对比。
通常获取论文开源代码的方式是找到会议官网,然后查看是否有开源代码,这样会比较麻烦。
但是实际上已经有一个网站PaperWithCode做了整理。

https://paperswithcode.com/

这个网站可以按照展示各个领域的state-of-the-art,还能按照数据集、方法等分类。

比如在resnet分类下,会首先介绍ResNet的基本概念,

然后列出基于这个模型做的研究,还有用该模型做的研究任务分类、研究热度的可视化展示,做的还是很好的,方便大家分析研究。

posted on 2022-09-06 18:02  fireworks  阅读(581)  评论(0编辑  收藏  举报

导航