18-动态网页爬虫-Selenium库的基本使用

本章动态网页爬虫的目标
1.学会动态网页爬虫
2.学会selenium库使用

 

什么是动态网页爬虫

1.动态网页

动态网页是网站在不重新加载的情况下,通过ajax技术动态更新网页中的局部数据。

2.AJAX(Asynchronous JavaScript And XML),即异步JavaScript和XML

前端与服务器进行少量的数据交换,AJAX可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

1>传统的网页(不使用AJAX)

如果传统的网页需要更新内容,通过向服务器发送同步请求,从服务器获取数据后,返回一个新的页面重新进行加载

2>动态的网页(使用AJAX)

如果动态的网页需要更新内容,通过向服务器发送异步请求,从服务器获取数据之后,通过JS操作DOM节点把数据更新到当前页面。(使用Ajax技术不必重新加载整个页面,只需对页面的局部进行更新)

 

需要注意的地方:

1>在web中的同步请求和异步请求的区别

同步请求:顺序处理,当我们向服务器发出一个请求时,在服务器没返回结果给客户端之前,我们要一直处于等待状态直至服务器将结果返回到客户端,我们才能执行下一步操作。

异步请求:并行处理,当我们向服务器发出一个请求时,在服务器没返回结果之前,我们还是可以执行其他操作。

2>传统的web开发和AJAX的区别

传统的web开发:我理解的是,页面交互为主导和同步的请求方式(服务器返回的页面)

AJAX:我理解的是,数据交互为主导和异步的请求方式(服务器返回的数据)

3>谷歌浏览器中Network中XHR和JS的区别

XHR:application/json,这里更多指的是返回 json 格式的数据

JS:application/javascript,这里更多指的是返回 js(JavaScript) 代码,JavaScript 是属于HTML 和Web 的编程语言

 

posted @ 2021-04-27 22:00  马铃薯1  阅读(152)  评论(0编辑  收藏  举报