摘要:
1、JS写的cookie 当我们要写爬虫爬某个网页里面的数据的时候,无非就是发开网页,然后查看源代码,如果html里面有我们要的数据的话,那样也就简单了,直接就可以用requests请求网址得到网页源码,然后解析提取一下我们要的内容就可以了 requests得到的网页是一对JS,跟浏览器打开看到的网 阅读全文
摘要:
爬虫: 我们为了获得任何信息而采用任何手段对某一个网站进行的‘攻击’行为,之所以称之为‘攻击行为’,主要是因为我们对网站的爬虫过程会对网站造成不同程度上的影响。而爬虫与我们手动点击访问网站数据的区别主要就在于这个是批量的操作 反爬虫: 网站为了维护自己的核心安全而采取的抑制爬虫的手段 常见的反爬机制 阅读全文
摘要:
安装模块:pip3 install retrying 使用方式: 例子: 首先导入了retry模块 然后装饰了一个run函数,函数中很简单,主要就是通过raise跑出了一个异常,执行这个代码 我们可以发现,程序打印了五次开始重试,最后一次抛出异常,NameError,那么到了这里我们就可以感受到,就 阅读全文
摘要:
import asyncio from pyppeteer import launch async def main(): browser = await launch() page = await browser.newPage() await page.setViewport(viewport={'width': 1280, 'height': 800}) # 是否启用js await pag 阅读全文
摘要:
安装selenium 网页元素定位 节点交互: 动作链 执行js 例如下拉进度条,可以直接模拟运行JavaScript,适用execute_script()即可实现 获取节点信息 获取文本值 输出id、位置、标签名、大小 界面切换 延时等待(隐式等待) 显式等待 Cookies 阅读全文
摘要:
scrapy是一个python爬虫框架,爬取的效率极高,具有高度的定制性,但是不支持分布式。而scrapy-redis是一套基于redis库,运行在scrapy框架之上的组件,可以让scapy支持分布式策略 Slaver端共享Master端redis数据库里的item 队列、请求队列和请求指纹集合。 阅读全文
摘要:
首先要说一下scrapy-redis 配置文件settings主要配置Scrapy_Redis的功能,其中配置SCHEDULER是改变Scrapy原有的调度器。当项目运行的时候,Scrapy从配置文件中读取配置信息,根据配置信息运行Scrapy_Redis的功能,使得整个项目的调度器Schedule 阅读全文
摘要:
首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段: 首先去items中确定要爬的内容 在确定完要爬的字段之后,就是分析网站页面的请求了,找到自己需要的内容,我这里爬的是http://www.win4000.com里面的壁纸照片 首先我们在分析的时候,点到一个图集里面可以发现,真正的照片都 阅读全文
摘要:
Elasticsearch是一个分布式可扩展的实时搜索引擎和分析引擎,一个建立在全文搜索引擎基础上的搜索引擎,它不仅包括全文搜索功能,还可以进行如下工作: 分布式实时文件存储,并将每一个字段都编入到索引中,使其可以被搜索 实时分析的分布式搜索系统 可以扩展到上百台服务器,处理PB级别的结构化或非结构 阅读全文
摘要:
在python爬虫中:使用requests + selenium就可以解决将近90%的爬虫需求,那么scrapy就是解决剩下10%的吗? 这个显然不是这样的,scrapy框架是为了让我们的爬虫更强大、更高效的存在,所以我们有必要好好了解一下scrapy框架。 scrapy是一个为了爬取网站数据,提取 阅读全文