tulintao

2019年10月2日

摘要： 1、JS写的cookie 当我们要写爬虫爬某个网页里面的数据的时候，无非就是发开网页，然后查看源代码，如果html里面有我们要的数据的话，那样也就简单了，直接就可以用requests请求网址得到网页源码，然后解析提取一下我们要的内容就可以了 requests得到的网页是一对JS，跟浏览器打开看到的网阅读全文

posted @ 2019-10-02 01:46 tulintao 阅读(6951) 评论(2) 推荐(0) 编辑

2019年10月1日

爬虫与反爬虫

摘要：爬虫：我们为了获得任何信息而采用任何手段对某一个网站进行的‘攻击’行为，之所以称之为‘攻击行为’，主要是因为我们对网站的爬虫过程会对网站造成不同程度上的影响。而爬虫与我们手动点击访问网站数据的区别主要就在于这个是批量的操作反爬虫：网站为了维护自己的核心安全而采取的抑制爬虫的手段常见的反爬机制阅读全文

posted @ 2019-10-01 00:02 tulintao 阅读(561) 评论(1) 推荐(0) 编辑

2019年9月28日

retrying模块的使用

摘要：安装模块：pip3 install retrying 使用方式：例子：首先导入了retry模块然后装饰了一个run函数，函数中很简单，主要就是通过raise跑出了一个异常，执行这个代码我们可以发现，程序打印了五次开始重试，最后一次抛出异常，NameError，那么到了这里我们就可以感受到，就阅读全文

posted @ 2019-09-28 20:54 tulintao 阅读(1684) 评论(0) 推荐(0) 编辑

通过pyppeteer来爬取今日头条

摘要： import asyncio from pyppeteer import launch async def main(): browser = await launch() page = await browser.newPage() await page.setViewport(viewport={'width': 1280, 'height': 800}) # 是否启用js await pag 阅读全文

posted @ 2019-09-28 15:27 tulintao 阅读(630) 评论(0) 推荐(0) 编辑

2019年9月27日

Selenium详解

摘要：安装selenium 网页元素定位节点交互：动作链执行js 例如下拉进度条，可以直接模拟运行JavaScript，适用execute_script()即可实现获取节点信息获取文本值输出id、位置、标签名、大小界面切换延时等待（隐式等待）显式等待 Cookies 阅读全文

posted @ 2019-09-27 19:02 tulintao 阅读(350) 评论(0) 推荐(0) 编辑

scrapy和scrapy-redis的区别

摘要： scrapy是一个python爬虫框架，爬取的效率极高，具有高度的定制性，但是不支持分布式。而scrapy-redis是一套基于redis库，运行在scrapy框架之上的组件，可以让scapy支持分布式策略 Slaver端共享Master端redis数据库里的item 队列、请求队列和请求指纹集合。阅读全文

posted @ 2019-09-27 18:47 tulintao 阅读(2364) 评论(0) 推荐(1) 编辑

2019年9月26日

分布式爬虫与增量式爬虫

摘要：首先要说一下scrapy-redis 配置文件settings主要配置Scrapy_Redis的功能，其中配置SCHEDULER是改变Scrapy原有的调度器。当项目运行的时候，Scrapy从配置文件中读取配置信息，根据配置信息运行Scrapy_Redis的功能，使得整个项目的调度器Schedule 阅读全文

posted @ 2019-09-26 21:07 tulintao 阅读(620) 评论(0) 推荐(0) 编辑

scrapy框架来爬取壁纸网站并将图片下载到本地文件中

摘要：首先需要确定要爬取的内容，所以第一步就应该是要确定要爬的字段：首先去items中确定要爬的内容在确定完要爬的字段之后，就是分析网站页面的请求了，找到自己需要的内容，我这里爬的是http://www.win4000.com里面的壁纸照片首先我们在分析的时候，点到一个图集里面可以发现，真正的照片都阅读全文

posted @ 2019-09-26 20:07 tulintao 阅读(694) 评论(0) 推荐(0) 编辑

Elasticsearch简介

摘要： Elasticsearch是一个分布式可扩展的实时搜索引擎和分析引擎，一个建立在全文搜索引擎基础上的搜索引擎，它不仅包括全文搜索功能，还可以进行如下工作：分布式实时文件存储，并将每一个字段都编入到索引中，使其可以被搜索实时分析的分布式搜索系统可以扩展到上百台服务器，处理PB级别的结构化或非结构阅读全文

posted @ 2019-09-26 08:34 tulintao 阅读(189) 评论(0) 推荐(0) 编辑

使用scrapy框架来进行抓取的原因

摘要：在python爬虫中：使用requests + selenium就可以解决将近90%的爬虫需求，那么scrapy就是解决剩下10%的吗？这个显然不是这样的，scrapy框架是为了让我们的爬虫更强大、更高效的存在，所以我们有必要好好了解一下scrapy框架。 scrapy是一个为了爬取网站数据，提取阅读全文

posted @ 2019-09-26 07:38 tulintao 阅读(248) 评论(0) 推荐(0) 编辑

公告