随笔分类 -  爬虫从入门到入狱

摘要:scrapy架构介绍 # 框架 》架构 # 1 spiders:爬虫(咱们的代码) # 2 engin :引擎(大总管) # 3 scheduler:调度器(排队,谁先爬谁后爬,去重) # 4 downloader:下载器(真正的负责发送http请求,获取数据,性能很高,基于twisted,性能很高 阅读全文
posted @ 2022-08-03 19:40 香菜根 阅读(74) 评论(0) 推荐(0) 编辑
摘要:打码平台使用 # 验证码的破解 -简单的数字字母组合可以使用图像识别(python 现成模块),成功率不高 -使用第三方打码平台(破解验证码平台),花钱,把验证码图片给它,它给你识别完,返回给你 # 云打码,超级鹰 超级鹰下载地址:http://www.chaojiying.com/download 阅读全文
posted @ 2022-08-03 19:18 香菜根 阅读(470) 评论(0) 推荐(0) 编辑
摘要:xpath的使用 简介:XPath 是一门在 XML 文档中查找信息的语言 # 一般解析库都会有子的的搜索标签的方法,一般都会支持css和xpath # XPath 是一门在 XML 文档中查找信息的语言 # 需要你记住的: -div 找div标签 -/ 找当前路径下的标签 - /div/a -// 阅读全文
posted @ 2022-08-03 19:08 香菜根 阅读(56) 评论(0) 推荐(0) 编辑
摘要:爬红楼梦小说 #http://www.shicimingju.com/book/hongloumeng.html import requests from bs4 import BeautifulSoup ret=requests.get('https://www.shicimingju.com/b 阅读全文
posted @ 2022-08-03 18:59 香菜根 阅读(68) 评论(0) 推荐(0) 编辑
摘要:selenium基本使用 # 由于requests不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有 》selenium模块:模拟操作浏览器,完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码 阅读全文
posted @ 2022-08-03 18:56 香菜根 阅读(290) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup4 介绍 # Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # 使用requests发请求拿回来的html,就可以使用bs4解析出咱们想要的数据 # BeautifulSoup(要解析的字符串, "解析方式:html.parser 阅读全文
posted @ 2022-08-03 18:22 香菜根 阅读(184) 评论(0) 推荐(0) 编辑
摘要:代理池搭建 # 在爬一些网站的时候可能会被封ip,根据ip限制频率 》突破限制 》每次发送请求使用代理ip 》服务端封ip,只会限制代理ip # 做一个代理池 》有很多代理ip 》每次随机从里面取出一个ip使用 # 免费的:不稳定 # 收费的:花钱 # 基于网上别人开源的代理池的python代码,自 阅读全文
posted @ 2022-08-03 18:14 香菜根 阅读(85) 评论(0) 推荐(0) 编辑
摘要:requests 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的reques 阅读全文
posted @ 2022-08-03 17:40 香菜根 阅读(333) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩