随笔分类 - 爬虫

day07

摘要：爬虫中间件和下载件中间件爬虫中间件（一般不用） # 第一步：写个爬虫中间件类 class ScrapyDemoSpiderMiddleware: @classmethod def from_crawler(cls, crawler): # This method is used by Scrapy 阅读全文

posted @ 2023-11-13 21:30 Py玩家阅读(7) 评论(0) 推荐(0) 编辑

day06

摘要：scrapy解析数据 ##### 运行爬虫 scrapy crawl cnblogs ##### 可以项目目录下写个main.py from scrapy.cmdline import execute execute(['scrapy','crawl','cnblogs','--nolog']) # 阅读全文

posted @ 2023-11-13 21:30 Py玩家阅读(5) 评论(0) 推荐(0) 编辑

day05

摘要：打码平台登录某些网站，会有验证码，想要自动破解数字字母：python自带模块ddddocr 除此之外：计算题、成语题、滑块，都需要第三方打码平台打码平台云打码、超级鹰破解网站登录思路使用selenium，打开网站，但是不能解释出验证码地址，所以需要截图案例 import request 阅读全文

posted @ 2023-11-13 21:30 Py玩家阅读(6) 评论(0) 推荐(0) 编辑

day04

摘要：1 selenium等待元素加载 # 程序执行速度很快》获取标签》标签还没加载好》直接去拿会报错 # 显示等待：当你要找一个标签的时候，给它加单独加等待时间 # 隐士等待：只要写一行，代码中查找标签，如果标签没加载好，会自动等待 browser.implicitly_wait(10) 2 se 阅读全文

posted @ 2023-11-13 21:29 Py玩家阅读(4) 评论(0) 推荐(0) 编辑

day03

摘要：搜索文档树 find和find——all from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>Th 阅读全文

posted @ 2023-11-09 19:13 Py玩家阅读(13) 评论(0) 推荐(0) 编辑

day01

摘要：爬虫介绍什么是爬虫别名：网页蜘蛛、网络机器人、spider 在互联网上通过程序爬取数据的过程根本上：使用程序模拟http请求，得到http响应，把相应的数据解析出来，存储起来做爬虫需要掌握的技术 web端爬虫抓包：抓包工具：浏览器，charles，fiddler。。。发送http请求的阅读全文

posted @ 2023-11-08 20:06 Py玩家阅读(26) 评论(0) 推荐(0) 编辑