爬虫从入门到入狱 - 随笔分类 - 香菜根

scrapy架构介绍、安装、基本使用

摘要：scrapy架构介绍 # 框架》架构 # 1 spiders：爬虫（咱们的代码） # 2 engin ：引擎（大总管） # 3 scheduler：调度器（排队，谁先爬谁后爬，去重） # 4 downloader：下载器（真正的负责发送http请求，获取数据，性能很高，基于twisted，性能很高阅读全文

posted @ 2022-08-03 19:40 香菜根阅读(74) 评论(0) 推荐(0) 编辑

打码平台使用及实战

摘要：打码平台使用 # 验证码的破解 -简单的数字字母组合可以使用图像识别（python 现成模块），成功率不高 -使用第三方打码平台（破解验证码平台），花钱，把验证码图片给它，它给你识别完，返回给你 # 云打码，超级鹰超级鹰下载地址:http://www.chaojiying.com/download 阅读全文

posted @ 2022-08-03 19:18 香菜根阅读(470) 评论(0) 推荐(0) 编辑

XPATH

摘要：xpath的使用简介：XPath 是一门在 XML 文档中查找信息的语言 # 一般解析库都会有子的的搜索标签的方法，一般都会支持css和xpath # XPath 是一门在 XML 文档中查找信息的语言 # 需要你记住的： -div 找div标签 -/ 找当前路径下的标签 - /div/a -// 阅读全文

posted @ 2022-08-03 19:08 香菜根阅读(56) 评论(0) 推荐(0) 编辑

几个爬虫实例

摘要：爬红楼梦小说 #http://www.shicimingju.com/book/hongloumeng.html import requests from bs4 import BeautifulSoup ret=requests.get('https://www.shicimingju.com/b 阅读全文

posted @ 2022-08-03 18:59 香菜根阅读(68) 评论(0) 推荐(0) 编辑

selenium基本使用、无界面浏览器、selenium其它用法、selenium登录cnblogs获取cookie、动作链

摘要：selenium基本使用 # 由于requests不能执行js，有的页面内容，我们在浏览器中可以看到，但是请求下来没有》selenium模块：模拟操作浏览器，完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码阅读全文

posted @ 2022-08-03 18:56 香菜根阅读(290) 评论(0) 推荐(0) 编辑

BeautifulSoup4介绍及使用、爬取新闻

摘要：BeautifulSoup4 介绍 # Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # 使用requests发请求拿回来的html，就可以使用bs4解析出咱们想要的数据 # BeautifulSoup(要解析的字符串, "解析方式：html.parser 阅读全文

posted @ 2022-08-03 18:22 香菜根阅读(184) 评论(0) 推荐(0) 编辑

代理池搭建、django后端获取客户端的ip、爬某视频

摘要：代理池搭建 # 在爬一些网站的时候可能会被封ip，根据ip限制频率》突破限制》每次发送请求使用代理ip 》服务端封ip，只会限制代理ip # 做一个代理池》有很多代理ip 》每次随机从里面取出一个ip使用 # 免费的:不稳定 # 收费的：花钱 # 基于网上别人开源的代理池的python代码，自阅读全文

posted @ 2022-08-03 18:14 香菜根阅读(85) 评论(0) 推荐(0) 编辑

requests介绍及使用

摘要：requests 介绍 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的reques 阅读全文

posted @ 2022-08-03 17:40 香菜根阅读(333) 评论(0) 推荐(0) 编辑

Loading

你脱发吗

随笔分类 - 爬虫从入门到入狱

公告

搜索

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜