爬虫---入门

四步:

 

1.发起请求

1.1会使用浏览器的调试

1。通常第一个都是文档形式,就是网页的源代码

2。get直接请求而post要构建表单,这个fromdata就会加到请求体中键值对

3。url编码,如果想看url中%数据,就去解码,当然想要在url中加数据就要url编码

4。请求头,也是键值对,放到字典中,注意都是字符串。最后加到httprequest中。有的网站,get请求如果没有头就会返回错误。

5。当解析第一个文档时,解析的时候就会重新发起一次请求,这时你要从下面的xhr中,一个一个找到你的数据。

1.2request包含四部分

2.响应内容

2.1response包含三部分

2.2set_cookies  响应体中一个很重要的部分

2.3响应体中就是我们 想要的东西

 可以是json,可以是js代码,可以是html代码,可以是图片,视频,音频。。

一般来说:.content返回的是二进制数据的也就是我们所说的图片,.text返回的是响应体的内容

3.解析内容

 

 

4.保存数据

 

图片:

 5.js渲染

分析ajax:ajax技术的核心是XMLHttpRequest对象(简称XHR)

用webdriver

posted @ 2018-04-09 20:22  Gaoyongxian666  阅读(165)  评论(0编辑  收藏  举报