18-动态网页爬虫-Selenium库的基本使用
本章动态网页爬虫的目标
1.学会动态网页爬虫
2.学会selenium库使用
什么是动态网页爬虫
1.动态网页
动态网页是网站在不重新加载的情况下,通过ajax技术动态更新网页中的局部数据。
2.AJAX(Asynchronous JavaScript And XML),即异步JavaScript和XML
前端与服务器进行少量的数据交换,AJAX可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
1>传统的网页(不使用AJAX)
如果传统的网页需要更新内容,通过向服务器发送同步请求,从服务器获取数据后,返回一个新的页面重新进行加载
2>动态的网页(使用AJAX)
如果动态的网页需要更新内容,通过向服务器发送异步请求,从服务器获取数据之后,通过JS操作DOM节点把数据更新到当前页面。(使用Ajax技术不必重新加载整个页面,只需对页面的局部进行更新)
需要注意的地方:
1>在web中的同步请求和异步请求的区别
同步请求:顺序处理,当我们向服务器发出一个请求时,在服务器没返回结果给客户端之前,我们要一直处于等待状态直至服务器将结果返回到客户端,我们才能执行下一步操作。
异步请求:并行处理,当我们向服务器发出一个请求时,在服务器没返回结果之前,我们还是可以执行其他操作。
2>传统的web开发和AJAX的区别
传统的web开发:我理解的是,页面交互为主导和同步的请求方式(服务器返回的页面)
AJAX:我理解的是,数据交互为主导和异步的请求方式(服务器返回的数据)
3>谷歌浏览器中Network中XHR和JS的区别
XHR:application/json,这里更多指的是返回 json 格式的数据
JS:application/javascript,这里更多指的是返回 js(JavaScript) 代码,JavaScript 是属于HTML 和Web 的编程语言