Day1-Ajax数据爬取

一、渲染网页

  

document.getElementById("myDiv").innerHTML=xmlhttp.responseText 这里就是将ID是myDiv的节点内部的HTML代码更改为服务器返回的内容了

6.2、Ajax分析方法

1、在微博的页面中,打开审查元素中network,刷新一下页面久可以看到很多请求了

2、Ajax又一种特殊的请求类型,叫做xhr,在一个请求中的Request Headers中有一个元素叫做”

x-requested-with:
XMLHttpRequest
这久标记了这个请求是Ajax请求了
----点击Preview,就可以看到响应的内容了
----点击Response中,可以观察到真实的返回数据
----一般请求的第一条中Response就是这个页面的原始html
 
3、过滤请求
可以在审查元素中筛选初所有的Ajax请求,选择XHR ,就可以显示所有的Ajax请求了
 
6.3 Ajax结果提取(用Python 实现Ajax请求的模拟,从而实现数据的爬取)
分析响应:
    是JSON格式的,其中最关键的两部分信息就是 cardlistInfo 和 cards
    其中的cardlistInfo 包含的重要信息total 这个其实就是微博的总数量,可以根据这个数字来估算分页数
 
    在cards里面的有一个重要的字段 mblog 展开它就可以看到微博的一些重要信息了,比如attitudes_count 就是赞的数目;
    comments——count就是评论的数目、reposts_count就是转发的数目、created_at就是发布的时间了、text就是微博的正文了
 
3、实战演练
 
posted @ 2020-06-09 21:45  SCAU-gogocj  阅读(114)  评论(0编辑  收藏  举报