随笔分类 -  python爬虫

摘要:1.爬出来的数据和页面上的数据不一致 阅读全文
posted @ 2023-04-26 08:55 越长大越孤单哦 阅读(15) 评论(0) 推荐(0) 编辑
摘要:普通的爬虫发送给服务器端的信息只有对于该页面的访问请求。,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息, 而缺失这些信息的请求往往都是非正常的访问,例如爬虫. 有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用 阅读全文
posted @ 2020-04-22 15:29 越长大越孤单哦 阅读(341) 评论(0) 推荐(0) 编辑
摘要:基本GET请求1. 最基本的GET请求可以直接用get方法 response = requests.get("http://www.baidu.com/") 2. 添加 headers 和 查询参数 如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参 阅读全文
posted @ 2020-04-21 14:52 越长大越孤单哦 阅读(513) 评论(0) 推荐(0) 编辑
摘要:一、爬虫是什么? 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用; 二、爬虫的基本流程: 用户获取网络数据的方式: 方式1:浏览器提交请求 >下载网页代码 >解析成页面 方式2:模 阅读全文
posted @ 2019-07-08 11:05 越长大越孤单哦 阅读(264) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示