1.26学习进度

今天继续学习python爬虫,学习动态网页和静态网页爬取的不同方法

1. 静态网页爬取:

静态网页的内容在服务器上就是完整的 HTML 页面,因此爬取相对简单。

爬取方法:

  • 直接请求页面: 使用爬虫工具、库(如Beautiful Soup、Scrapy等)或者简单的HTTP请求库(如Requests)直接请求页面,然后解析HTML获取需要的信息。
  • 使用API: 有些网站提供API,可以通过API获取数据,这样更加规范和方便。

2. 动态网页爬取:

动态网页的内容通常是通过JavaScript在客户端进行加载的,因此爬取过程中需要模拟浏览器行为,确保JavaScript代码得到执行。

爬取方法:

  • 使用Headless浏览器: 使用带有无头浏览器的工具,例如Selenium、Puppeteer等,来模拟用户在浏览器中访问网页的过程,获取完整的渲染后的HTML。
  • 分析XHR请求: 使用开发者工具观察浏览器发起的XHR(XMLHttpRequest)请求,然后通过模拟这些请求来获取数据。这通常需要对网页的网络请求进行深入分析。

注意事项:

  • 爬虫道德和法律问题: 在进行网页爬取时,请确保遵守相关网站的爬取规则和法规,以及遵循良好的爬虫道德规范。
  • 反爬虫机制: 很多网站为了防止被爬取设置了反爬虫机制,需要注意规避这些机制,以避免封禁IP等问题。
posted @ 2024-01-26 22:48  小趴菜且能喝66  阅读(4)  评论(0编辑  收藏  举报