Python爬虫简易教程
步骤
1.获取编程软件
- Python3
- Pycharm社区版(可选,更方便代码编辑)
Python软件包
- requests
- selenium
requests和selenium的区别
对于“xxx.html”类型地址的网页,他们的内容是静态的,这种网站一般不会做防护,可以直接用requests爬。
其他类型的内容用selenium更节省时间一点。除此之外,selenium伪装得更像正常用户,更容易骗过某些网站,获取到网页。
2.获取网页
略
3.解析网页结构
基于xpath和css查找某个网页结构
- bs4
- lxml的etree(我一般在requests里面用这个)
- selenium自带的find_element方法
- 其他
4.获取结果
略
5.保存结果
用将爬到的结果临时储存,最后写入文件中。
6.验证结果
听说过有网站会识别爬虫并且一旦识别,就会返回伪装成正常HTML、带有虚假信息的页面(比如价格乱标),所以爬完之后记得人工简单验证一下结果是否准确。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)