1.26学习进度

今天继续学习python爬虫，学习动态网页和静态网页爬取的不同方法

1. 静态网页爬取：

静态网页的内容在服务器上就是完整的 HTML 页面，因此爬取相对简单。

爬取方法：

直接请求页面： 使用爬虫工具、库（如Beautiful Soup、Scrapy等）或者简单的HTTP请求库（如Requests）直接请求页面，然后解析HTML获取需要的信息。
使用API： 有些网站提供API，可以通过API获取数据，这样更加规范和方便。

2. 动态网页爬取：

动态网页的内容通常是通过JavaScript在客户端进行加载的，因此爬取过程中需要模拟浏览器行为，确保JavaScript代码得到执行。

爬取方法：

使用Headless浏览器： 使用带有无头浏览器的工具，例如Selenium、Puppeteer等，来模拟用户在浏览器中访问网页的过程，获取完整的渲染后的HTML。
分析XHR请求： 使用开发者工具观察浏览器发起的XHR（XMLHttpRequest）请求，然后通过模拟这些请求来获取数据。这通常需要对网页的网络请求进行深入分析。

注意事项：

爬虫道德和法律问题： 在进行网页爬取时，请确保遵守相关网站的爬取规则和法规，以及遵循良好的爬虫道德规范。
反爬虫机制： 很多网站为了防止被爬取设置了反爬虫机制，需要注意规避这些机制，以避免封禁IP等问题。

posted @ 2024-01-26 22:48 小趴菜且能喝66 阅读(25) 评论(0) 收藏举报

刷新页面返回顶部