小酌一下:Win10 解决fetch_20newsgroups下载速度巨慢
仅为个人查阅使用,如有错误还请指正。
最近在学机器学习,试着用朴素贝叶斯做一个分类问题,数据就用sklearn新闻数据集。
但是下载巨慢,没耐心等。接下去就是一波操作,上篮成功。
因为版本之间可能存在差异,所以就不发数据集的安装包了。
1)当你在运行程序的时候,控制台是这么输出的
Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)
2)默认在当前用户下生成文件
cd C:\Users\73107\scikit_learn_data
可以看到20news_home这个文件,里面是20news-bydate.tar.gz这么一个安装包。
请记住它的名字20news-bydate.tar.gz。
可以把这个安装包删除,程序也可以停止了。
3)打开运行时下载链接
https://ndownloader.figshare.com/files/5975967
下载安装包,下载完毕之后。
该安装包的名字改成上面说的那个名字(20news-bydate.tar.gz)。
并且把这个安装包放到 C:\Users\73107\scikit_learn_data\20news_home里面。
4)打开运行程序的Python环境
Python环境别搞错了,特别是用虚拟环境的。别乱搞。
cd \site-packages\sklearn\datasets
打开twenty_newsgroups.py文件
把第一个红框注释(其实就是原本用来下载的代码)。
写上第二个红框,也就是下载安装包的路径。
5)运行程序,完美解决。
程序会自动解压20news-bydate.tar.gz。
然后删除,最后生成一个缓存文件20news-bydate.pkz。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
· 趁着过年的时候手搓了一个低代码框架
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· 乌龟冬眠箱湿度监控系统和AI辅助建议功能的实现