研招网目标院校(南京大学)爬虫
yzw爬虫
代码地址
git@github.com:OrpheusRomeo/yzw-spider.git
项目简介
因为考研的需要,所以想在考试报考前爬取一下目标学校的考试科目和名额 功能特性 写好的爬虫可以直接使用(仅三个学校),可以根据自己需求, 更换spider中的学校keywords就可以, 毕竟并不需要做所有学校的数据,你只要搜集目标院校就好了, 只要网站的element没变的话, 都可以爬到数据, 不过只有硕士目录,没有博士目录 本方案提供了三种保存数据的方式,分别是csv, json, 和xlsx(excel) 三种文件格式 需要哪一种, 就在setting 中将 ITEM_PIPELINES 的变量里打开对应的pipeline即可,默认三种. 至于保存名字,可以按照个人需要修改
安装
主要是用了scrapy, 如果你的环境中还缺少其他依赖, 请按照报错提示安装相对应依赖包 我的环境大部分依赖都安装了,所以没有列出来
pip install scrapy
使用 cd yzw scrapy crawl master 执行脚本的地方是和item.py同级的目录
作者
版本内容更新
V1.1.1
声明
学习报考使用, 仅供参考
协议
MIT
成功没有捷径
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?