2022 年 1月 15 日随笔档案 - Sunshine_y

2022年1月15日

摘要：以百度翻译为例：用过百度翻译的小伙伴们都知道，在输入需要翻译的内容后，页面只会刷新翻译框下面的内容，并不会刷新整个页面，因此这种情况使用的是ajax，打开抓包工具，如下：我们选中XHR后，可见该请求是POST类型，于是爬虫程序需要编写为POST型，此外还需要注意返回的响应数据为JSON格式。然阅读全文

posted @ 2022-01-15 22:19 Sunshine_y 阅读(319) 评论(0) 推荐(1) 编辑

requests实现动态爬取页面

摘要：首先，介绍一种反爬机制：UA检测（User-Agent：请求载体的身份标识）：门户网站的服务器会检测对应请求的载体身份标识，如果到该请求的UA为某浏览器，则说明该请求是正常的请求，允许访问；反之，若检测到不是某浏览器（UA只会有两种，浏览器和爬虫），则说明该请求是不正常的，可能会拒绝访问。那么，阅读全文

posted @ 2022-01-15 11:28 Sunshine_y 阅读(384) 评论(1) 推荐(0) 编辑

requests模块基础

摘要： requests模块：python中原生的一款基于网络请求的模块，作用是模拟浏览器发送请求。如何使用：指定url - 发起请求 - 获取响应数据 - 持久化存储实战需求：爬取搜狗首页的页面数据 import requests if __name__ == "__main__": # 指定url u 阅读全文

posted @ 2022-01-15 09:59 Sunshine_y 阅读(32) 评论(0) 推荐(0) 编辑

TzySec

公告