使用 Python 爬取高校教师信息

需求:

从全国高校官方网站中爬取教师信息,包括姓名、介绍待信息。

目标:

将从各高校官网中爬取到的教师信息存入 excel 或 csv 中。

准备工作:

爬取目标的高校官网网址

 

具体操作如下:

1.经过分析,大部分高校网站的页面使用的是 GET 请求,部分使用了 POST 请求,其中有一部分网站使用的加密技术(像瑞数等)

2.提取爬取所需要的相关页面结构信息,如 css 路径

3.准备爬虫代码,结合前面两步,写出一个适配大部分网站的爬虫,将第二步中获取到的信息形成配置文件,爬虫读取配置文件进行数据解析、爬取、存储。

 

配置信息如下:

UntitledImage

 

代码执行过程:

UntitledImage

posted @ 2023-03-15 23:11  逸乐太子  阅读(446)  评论(3编辑  收藏  举报