Day1-Ajax数据爬取

一、渲染网页

document.getElementById("myDiv").innerHTML=xmlhttp.responseText 这里就是将ID是myDiv的节点内部的HTML代码更改为服务器返回的内容了

6.2、Ajax分析方法

1、在微博的页面中，打开审查元素中network，刷新一下页面久可以看到很多请求了

2、Ajax又一种特殊的请求类型，叫做xhr，在一个请求中的Request Headers中有一个元素叫做”

x-requested-with:

XMLHttpRequest

这久标记了这个请求是Ajax请求了

----点击Preview，就可以看到响应的内容了

----点击Response中，可以观察到真实的返回数据

----一般请求的第一条中Response就是这个页面的原始html

3、过滤请求

可以在审查元素中筛选初所有的Ajax请求，选择XHR ,就可以显示所有的Ajax请求了

6.3 Ajax结果提取（用Python 实现Ajax请求的模拟，从而实现数据的爬取）

分析响应：

　　　　是JSON格式的，其中最关键的两部分信息就是 cardlistInfo 和 cards

　　　　其中的cardlistInfo 包含的重要信息total 这个其实就是微博的总数量，可以根据这个数字来估算分页数

　　　　在cards里面的有一个重要的字段 mblog 展开它就可以看到微博的一些重要信息了，比如attitudes_count 就是赞的数目；

　　　　comments——count就是评论的数目、reposts_count就是转发的数目、created_at就是发布的时间了、text就是微博的正文了

3、实战演练

posted @ 2020-06-09 21:45 SCAU-gogocj 阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

SCAU-gogocj