自学爬虫- - abloger

爬虫 | 基本步骤和解析网页的几种方法

摘要：爬虫的步骤可以简单的概括为：获取网页并拿到HttpResponse对象，一般都是urllib库或者requests库 # 设置要爬取的网页，以及headers伪装浏览器（最基本防反扒手段） url = 'https://example.com' headers = { "User-Agent":" 阅读全文

posted @ 2024-06-05 18:31 abloger 阅读(306) 评论(0) 推荐(0)

爬虫 | xpath + lxml 库解析爬取网页

摘要：lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据（XPath表达式是一种在XML文档中查找信息的语言，它同样适用于HTML文档）注意xpath中索引是从1开始而不是0 简单示例： # 先pip install lxml import requests from lx 阅读全文

posted @ 2024-06-11 17:04 abloger 阅读(118) 评论(0) 推荐(0)

爬虫 | 处理cookie的基本方法——session

摘要：很多网页要求登录后，才能查看对应的信息，整个流程是：客户端服务器玩家登录返回cookie 获得cookie后继续访问其他页面根据cookie查验身份，返回对应内容 session会话，理解为可以连续请求，先提交data换来cookie，然后可以带着cookie继续访问。比如此时想访问一个需阅读全文

posted @ 2024-06-12 10:48 abloger 阅读(67) 评论(0) 推荐(0)

爬虫 | 防盗链和代理

摘要：防盗链referer：一种反爬方式。一些网站在响应之前会先溯源，检查请求的网址X，是从哪个链接进入的（即上一级网址是谁），比如：通过网址A >进入网址X，那么上一级就是A。如果发现上一级网址不存在，或者错误，则认为是其他歪门邪道来的，就不给你数据。这个就是防盗链referer。 # 防盗链的信息查阅读全文

posted @ 2024-06-12 13:11 abloger 阅读(67) 评论(0) 推荐(0)

爬虫 | 多线程、多进程、协程

摘要：进程和线程进程就相当于各个部门，线程就相当于各个部门里的干事员们 """ 进程中至少有一条线程，线程和进程的开启非常类似，这里就展示线程 """ from threading import Thread from multiprocessing import Process # 第一种开启的方法就阅读全文

posted @ 2024-06-13 16:44 abloger 阅读(52) 评论(0) 推荐(0)

abloger

合集-自学爬虫

公告