python 爬虫

1.服务器渲染:在服务器端直接把HTML骨架和数据整合在一起,统一发送给浏览器

  在页面源代码当中能看到数据

2.客户端渲染:

  第一次请求只要求一个HTML骨架,第二次请求拿到数据,进行数据展示

  在页面源代码中,看不到数据

 第一次请求拿不到数据,只要找到第二次请求的url 就能拿到数据

使用浏览器的抓包工具

 

Http协议:传递网站代码

请求行-> 请求方式(get 一般是显示提交 请求数据一般会用到 获取 /post  上传数据 一般修改单个数据或少量数据会用到)  请求 url地址 协议

请求头--> 放一些服务求要使用的附加信息(一般反爬虫的关键位置)

{1.User-Agent:请求载体的身份标识  用什么发送的请求

2.Referer:  防盗链 一般记录这次请求从哪个页面来的?反爬取会用到

3.cookie: 本地字符串数据信息 (用户登录信息,反爬的token)}

请求体 --> 一般放一些请求参数

 

状态行 ->协议  状态码(404/500/200)

响应头 -> 放一些客户端要使用的一些附加信息(一般反爬虫的关键位置)

{1.cookie: 本地字符串数据信息 用户登录信息,反爬的token

2.各种神奇的莫名其妙的字符串  经验之谈 一般都是token 字样 ,防止各种攻击和反爬}

响应体 -> 服务器返回的真正客户端要使用的内容(html,json)等

 

python利用open打开文件的方式:

w:以写方式打开,

a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+:以读写模式打开

w+:以读写模式打开 (参见 w )

a+:以读写模式打开 (参见 a )

rb:以二进制读模式打开

wb:以二进制写模式打开 (参见 w )

ab:以二进制追加模式打开 (参见 a )

rb+:以二进制读写模式打开 (参见 r+ )

wb+:以二进制读写模式打开 (参见 w+ )

ab+:以二进制读写模式打开 (参见 a+ )

  

 

posted @ 2022-03-01 10:08  不懂就要问!  阅读(83)  评论(0编辑  收藏  举报