随笔- 46 文章- 0 评论- 0 阅读- 20625

研招网目标院校(南京大学)爬虫

yzw爬虫

代码地址

　　git@github.com:OrpheusRomeo/yzw-spider.git

项目简介

　　因为考研的需要,所以想在考试报考前爬取一下目标学校的考试科目和名额功能特性写好的爬虫可以直接使用(仅三个学校),可以根据自己需求, 更换spider中的学校keywords就可以, 毕竟并不需要做所有学校的数据，你只要搜集目标院校就好了, 只要网站的element没变的话, 都可以爬到数据, 不过只有硕士目录，没有博士目录本方案提供了三种保存数据的方式，分别是csv, json, 和xlsx(excel) 三种文件格式需要哪一种, 就在setting 中将 ITEM_PIPELINES 的变量里打开对应的pipeline即可,默认三种. 至于保存名字，可以按照个人需要修改

安装

　　主要是用了scrapy, 如果你的环境中还缺少其他依赖, 请按照报错提示安装相对应依赖包我的环境大部分依赖都安装了,所以没有列出来

　　pip install scrapy

　　使用 cd yzw scrapy crawl master 执行脚本的地方是和item.py同级的目录

作者

　　1024245303@qq.com

版本内容更新

　　V1.1.1

声明

　　学习报考使用, 仅供参考

协议

　　MIT

posted @ 2022-04-24 11:41 丁耀庭阅读(99) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· vimrc 配置

· 爬虫——获取研招网学校信息

· 爬虫学习记录之Python 爬虫实战：爬取研招网招生信息详情

· scrapy爬取校花网信息

· 使用 Python 爬取高校教师信息

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称：丁耀庭
园龄： 8年2个月
粉丝： 2
关注： 19

+加关注

2025年3月

日

一

二

三

四

五

六

丁耀庭

世上无难事,只要肯登攀.

研招网目标院校(南京大学)爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜