Python爬虫简易教程

步骤

1.获取编程软件

Python3
Pycharm社区版（可选，更方便代码编辑）

Python软件包

requests
selenium

requests和selenium的区别

对于“xxx.html”类型地址的网页，他们的内容是静态的，这种网站一般不会做防护，可以直接用requests爬。

其他类型的内容用selenium更节省时间一点。除此之外，selenium伪装得更像正常用户，更容易骗过某些网站，获取到网页。

2.获取网页

略

3.解析网页结构

基于xpath和css查找某个网页结构

bs4
lxml的etree（我一般在requests里面用这个）
selenium自带的find_element方法
其他

4.获取结果

略

5.保存结果

用将爬到的结果临时储存，最后写入文件中。

6.验证结果

听说过有网站会识别爬虫并且一旦识别，就会返回伪装成正常HTML、带有虚假信息的页面（比如价格乱标），所以爬完之后记得人工简单验证一下结果是否准确。

posted @ 2023-07-04 09:01 小鱼圆又圆阅读(224) 评论(0) 收藏举报

刷新页面返回顶部