Python爬虫简易教程

步骤

1.获取编程软件

  1. Python3
  2. Pycharm社区版(可选,更方便代码编辑)

Python软件包

  1. requests
  2. selenium

 

requests和selenium的区别

对于“xxx.html”类型地址的网页,他们的内容是静态的,这种网站一般不会做防护,可以直接用requests爬。

其他类型的内容用selenium更节省时间一点。除此之外,selenium伪装得更像正常用户,更容易骗过某些网站,获取到网页。

2.获取网页

3.解析网页结构

基于xpath和css查找某个网页结构

  1. bs4
  2. lxml的etree(我一般在requests里面用这个)
  3. selenium自带的find_element方法
  4. 其他

4.获取结果

5.保存结果

用将爬到的结果临时储存,最后写入文件中。

6.验证结果

听说过有网站会识别爬虫并且一旦识别,就会返回伪装成正常HTML、带有虚假信息的页面(比如价格乱标),所以爬完之后记得人工简单验证一下结果是否准确。

 

posted @   小鱼圆又圆  阅读(196)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示