合集-自学爬虫

摘要:爬虫的步骤可以简单的概括为: 获取网页并拿到HttpResponse对象,一般都是urllib库或者requests库 # 设置要爬取的网页,以及headers伪装浏览器(最基本防反扒手段) url = 'https://example.com' headers = { "User-Agent":" 阅读全文
posted @ 2024-06-05 18:31 abloger 阅读(160) 评论(0) 推荐(0) 编辑
摘要:lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据(XPath表达式是一种在XML文档中查找信息的语言,它同样适用于HTML文档) 注意xpath中索引是从1开始而不是0 简单示例: # 先pip install lxml import requests from lx 阅读全文
posted @ 2024-06-11 17:04 abloger 阅读(49) 评论(0) 推荐(0) 编辑
摘要:很多网页要求登录后,才能查看对应的信息,整个流程是: 客户端 服务器 玩家登录 返回cookie 获得cookie后继续访问其他页面 根据cookie查验身份,返回对应内容 session会话,理解为可以连续请求,先提交data换来cookie,然后可以带着cookie继续访问。比如此时想访问一个需 阅读全文
posted @ 2024-06-12 10:48 abloger 阅读(20) 评论(0) 推荐(0) 编辑
摘要:防盗链referer: 一种反爬方式。一些网站在响应之前会先溯源,检查请求的网址X,是从哪个链接进入的(即上一级网址是谁),比如:通过网址A >进入网址X,那么上一级就是A。如果发现上一级网址不存在,或者错误,则认为是其他歪门邪道来的,就不给你数据。这个就是防盗链referer。 # 防盗链的信息查 阅读全文
posted @ 2024-06-12 13:11 abloger 阅读(36) 评论(0) 推荐(0) 编辑
摘要:进程和线程 进程就相当于各个部门,线程就相当于各个部门里的干事员们 """ 进程中至少有一条线程,线程和进程的开启非常类似,这里就展示线程 """ from threading import Thread from multiprocessing import Process # 第一种开启的方法就 阅读全文
posted @ 2024-06-13 16:44 abloger 阅读(15) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示