爬虫学习笔记:Chrome开发者工具
如何通过Chrome开发者工具寻找一个网站上特定数据的爬取方式。
一、查看网页源代码
在网页上右键,选择 查看网页源代码(Ctrl+U)
,可显示URL对应的HTML代码文本。
内容与通过代码向URL发送GET请求所得到的结果一致。
通过正则表达式、bs4、xpath等方式可以在文本内容中搜索需要的数据,进行提取。
对于异步加载数据的网站,页面无法搜索得到。
或者因为权限、验证码等限制,代码获取得到结果与页面显示不同。
二、审查元素 F12
在网页上右键,选择 检查、审查元素
,可进入Chrome开发者工具中的元素选择器。
Elements 标签页:
- 选择元素:鼠标定位
- 模拟器:模拟设备效果
- 代码区:HTML代码、选中元素对应路径
- 样式区:CSS样式
Elements 看到的代码不等于请求网址拿到的返回值。
它是网页经过浏览器渲染后得到的最终效果。
三、网络 Network
选择 Network 进入网络监控功能,即“抓包”。
对于通过异步请求获取到的数据,找到其来源,包括:数据、JS、CSS、图片、文档等。
点击“搜索”功能,可直接对内容进行过滤。
抓取需要考虑几个问题:
- 请求方法:GET or POST
- 请求附带的参数数据:传递参数
- Headers信息:user-agent、host、referer、cookie等
Network 还有个功能:右键点击列表,选择“Save as HAR with content”,保存到文件。
这个文件包含了列表中所有请求的各项参数及返回值信息。
四、资源 Sources
查看资源列表和调试 JS。
五、Console
显示页面的报错和输出,并且可以执行 JS 代码。
参考链接:爬虫必备工具,掌握它就解决了一半的问题
分类:
爬虫
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)