爬虫基础——静态网页与动态网页

爬虫基础——静态网页与动态网页

在爬虫前应首先名确待爬取的页面是静态的，还是动态的，只有确定了页面类型，才方便后续对网页进行分析和程序编写。对于不同的网页类型，编写爬虫程序时所使用的方法也不尽相同

静态网页

静态网页是标准的 HTML 文件，通过 GET 请求方法可以直接获取，文件的扩展名是.html、.htm等，网面中可以包含文本、图像、声音、FLASH 动画、客户端脚本和其他插件程序等。静态网页是网站建设的基础，早期的网站一般都是由静态网页制作的。静态并非静止不动，它也包含一些动画效果
，网页的生成速度会降低，由于静态网页的内容相对固定，且不需要连接后台数据库，因此响应速度非常快。但静态网页更新比较麻烦，每次更新都需要重新加载整个网页。
静态网页的数据全部包含在 HTML 中，因此爬虫程序可以直接在 HTML 中提取数据。通过分析静态网页的 URL，并找到 URL 查询参数的变化规律，就可以实现页面抓取。

动态网页

动态网页指的是采用了动态网页技术的页面，它不需要重新加载整个页面内容，就可以实现网页的局部更新。动态页面使用“动态页面技术”与服务器进行少量的数据交换，从而实现了网页的异步加载。
抓取动态网页的过程较为复杂，需要通过动态抓包来获取客户端与服务器交互的 JSON 数据。抓包时，可以使用谷歌浏览器开发者模式（快捷键：F12）Network选项，然后点击 XHR，找到获取 JSON 数据的 URL，或者使用专业的抓包工具 Fiddler。

posted @ 2022-09-26 15:12 小杨的冥想课阅读(490) 评论(0) 收藏举报

刷新页面返回顶部