研招网目标院校(南京大学)爬虫

yzw爬虫

代码地址

  git@github.com:OrpheusRomeo/yzw-spider.git

项目简介

  因为考研的需要,所以想在考试报考前爬取一下目标学校的考试科目和名额 功能特性 写好的爬虫可以直接使用(仅三个学校),可以根据自己需求, 更换spider中的学校keywords就可以, 毕竟并不需要做所有学校的数据,你只要搜集目标院校就好了, 只要网站的element没变的话, 都可以爬到数据, 不过只有硕士目录,没有博士目录 本方案提供了三种保存数据的方式,分别是csv, json, 和xlsx(excel) 三种文件格式 需要哪一种, 就在setting 中将 ITEM_PIPELINES 的变量里打开对应的pipeline即可,默认三种. 至于保存名字,可以按照个人需要修改

安装

  主要是用了scrapy, 如果你的环境中还缺少其他依赖, 请按照报错提示安装相对应依赖包 我的环境大部分依赖都安装了,所以没有列出来

  pip install scrapy

  使用 cd yzw scrapy crawl master 执行脚本的地方是和item.py同级的目录

作者 

  1024245303@qq.com 

版本内容更新

  V1.1.1

声明

  学习报考使用, 仅供参考

协议

  MIT

posted @ 2022-04-24 11:41  丁耀庭  阅读(88)  评论(0编辑  收藏  举报