摘要: 以百度翻译为例: 用过百度翻译的小伙伴们都知道,在输入需要翻译的内容后,页面只会刷新翻译框下面的内容,并不会刷新整个页面,因此这种情况使用的是ajax,打开抓包工具,如下: 我们选中XHR后,可见该请求是POST类型,于是爬虫程序需要编写为POST型,此外还需要注意返回的响应数据为JSON格式。 然 阅读全文
posted @ 2022-01-15 22:19 Sunshine_y 阅读(319) 评论(0) 推荐(1) 编辑
摘要: 首先,介绍一种反爬机制:UA检测(User-Agent:请求载体的身份标识): 门户网站的服务器会检测对应请求的载体身份标识,如果到该请求的UA为某浏览器,则说明该请求是正常的请求,允许访问;反之,若检测到不是某浏览器(UA只会有两种,浏览器和爬虫),则说明该请求是不正常的,可能会拒绝访问。 那么, 阅读全文
posted @ 2022-01-15 11:28 Sunshine_y 阅读(384) 评论(1) 推荐(0) 编辑
摘要: requests模块:python中原生的一款基于网络请求的模块,作用是模拟浏览器发送请求。如何使用: 指定url - 发起请求 - 获取响应数据 - 持久化存储实战需求:爬取搜狗首页的页面数据 import requests if __name__ == "__main__": # 指定url u 阅读全文
posted @ 2022-01-15 09:59 Sunshine_y 阅读(32) 评论(0) 推荐(0) 编辑