随笔分类 - 爬虫
摘要:爬虫中间件和下载件中间件 爬虫中间件(一般不用) # 第一步:写个爬虫中间件类 class ScrapyDemoSpiderMiddleware: @classmethod def from_crawler(cls, crawler): # This method is used by Scrapy
阅读全文
摘要:scrapy解析数据 ##### 运行爬虫 scrapy crawl cnblogs ##### 可以项目目录下写个main.py from scrapy.cmdline import execute execute(['scrapy','crawl','cnblogs','--nolog']) #
阅读全文
摘要:打码平台 登录某些网站,会有验证码,想要自动破解 数字字母:python自带模块ddddocr 除此之外:计算题、成语题、滑块,都需要第三方打码平台 打码平台 云打码、超级鹰 破解网站登录思路 使用selenium,打开网站,但是不能解释出验证码地址,所以需要截图 案例 import request
阅读全文
摘要:1 selenium等待元素加载 # 程序执行速度很快 》获取标签 》标签还没加载好 》直接去拿会报错 # 显示等待:当你要找一个标签的时候,给它加单独加等待时间 # 隐士等待:只要写一行,代码中查找标签,如果标签没加载好,会自动等待 browser.implicitly_wait(10) 2 se
阅读全文
摘要:搜索文档树 find和find——all from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>Th
阅读全文
摘要:爬虫介绍 什么是爬虫 别名:网页蜘蛛、网络机器人、spider 在互联网上通过程序爬取数据的过程 根本上:使用程序模拟http请求,得到http响应,把相应的数据解析出来,存储起来 做爬虫需要掌握的技术 web端爬虫 抓包: 抓包工具:浏览器,charles,fiddler。。。 发送http请求的
阅读全文