使用 Python 爬取高校教师信息
需求:
从全国高校官方网站中爬取教师信息,包括姓名、介绍待信息。
目标:
将从各高校官网中爬取到的教师信息存入 excel 或 csv 中。
准备工作:
爬取目标的高校官网网址
具体操作如下:
1.经过分析,大部分高校网站的页面使用的是 GET 请求,部分使用了 POST 请求,其中有一部分网站使用的加密技术(像瑞数等)
2.提取爬取所需要的相关页面结构信息,如 css 路径
3.准备爬虫代码,结合前面两步,写出一个适配大部分网站的爬虫,将第二步中获取到的信息形成配置文件,爬虫读取配置文件进行数据解析、爬取、存储。
配置信息如下:
代码执行过程: