学习进度条43
分析网页
我们平时使用浏览器来访问网页,实质上来看,就是通过一个客户端经过网络连接访问了服务器端,访问前,我们的页面没有任何内容,那么这些内容必然都是从服务器端传输过来的。爬虫的工作就是利用编程的方式自动化地从服务器端获取并分析数据,得到我们需要爬取的内容。
因此想要利用爬虫获取内容,首先需要我们分析目标网站页面,了解其数据排列方式,知晓其数据传输过程,从而能够制订正确有效的爬取途径。
如果我们希望获取这个页面上的文章内容而不希望自己动手去复制粘贴,爬虫是一个非常有效的工具,而分析这个页面有几个方向:
(一)分析页面源代码:
在页面上单击右键,可以看到选项“查看页面源代码”(这里我使用的是Microsoft Edge浏览器,不同浏览器可能有所不同),弹出的新网页
(二)分析页面元素
在页面上按“F12”,神奇的事情出现了,页面的右侧(有的浏览器是下方)发生了有趣的变化
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步