爬虫---入门
四步:
1.发起请求
1.1会使用浏览器的调试
1。通常第一个都是文档形式,就是网页的源代码
2。get直接请求而post要构建表单,这个fromdata就会加到请求体中键值对
3。url编码,如果想看url中%数据,就去解码,当然想要在url中加数据就要url编码
4。请求头,也是键值对,放到字典中,注意都是字符串。最后加到httprequest中。有的网站,get请求如果没有头就会返回错误。
5。当解析第一个文档时,解析的时候就会重新发起一次请求,这时你要从下面的xhr中,一个一个找到你的数据。
1.2request包含四部分
2.响应内容
2.1response包含三部分
2.2set_cookies 响应体中一个很重要的部分
2.3响应体中就是我们 想要的东西
可以是json,可以是js代码,可以是html代码,可以是图片,视频,音频。。
一般来说:.content返回的是二进制数据的也就是我们所说的图片,.text返回的是响应体的内容
3.解析内容
4.保存数据
图片:
5.js渲染
分析ajax:ajax技术的核心是XMLHttpRequest对象(简称XHR)
用webdriver