研招网目标院校(南京大学)爬虫
yzw爬虫
代码地址
git@github.com:OrpheusRomeo/yzw-spider.git
项目简介
因为考研的需要,所以想在考试报考前爬取一下目标学校的考试科目和名额 功能特性 写好的爬虫可以直接使用(仅三个学校),可以根据自己需求, 更换spider中的学校keywords就可以, 毕竟并不需要做所有学校的数据,你只要搜集目标院校就好了, 只要网站的element没变的话, 都可以爬到数据, 不过只有硕士目录,没有博士目录 本方案提供了三种保存数据的方式,分别是csv, json, 和xlsx(excel) 三种文件格式 需要哪一种, 就在setting 中将 ITEM_PIPELINES 的变量里打开对应的pipeline即可,默认三种. 至于保存名字,可以按照个人需要修改
安装
主要是用了scrapy, 如果你的环境中还缺少其他依赖, 请按照报错提示安装相对应依赖包 我的环境大部分依赖都安装了,所以没有列出来
pip install scrapy
使用 cd yzw scrapy crawl master 执行脚本的地方是和item.py同级的目录
作者
版本内容更新
V1.1.1
声明
学习报考使用, 仅供参考
协议
MIT
成功没有捷径