上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: 彻底搞懂Scrapy的中间件(一) 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数 阅读全文
posted @ 2018-12-25 15:53 北伽 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 彻底搞懂Scrapy的中间件(二) 在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。 在中间件中集成Selenium 对于一些很麻烦的异步加载页面,手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium 阅读全文
posted @ 2018-12-25 15:53 北伽 阅读(311) 评论(0) 推荐(0) 编辑
摘要: scrapy框架的工作流程? a、spider解析下载器下下来的response,返回item或是links b、item或者link经过spidermiddleware的process_spider_out( )方法,交给engine c、engine将item交给item pipeline ,将 阅读全文
posted @ 2018-12-24 18:24 北伽 阅读(2673) 评论(0) 推荐(2) 编辑
摘要: python 爬虫 32个项目(学会了你就牛了哈哈) 32个Python爬虫项目让你一次吃到撑 今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微 阅读全文
posted @ 2018-12-21 12:36 北伽 阅读(978) 评论(0) 推荐(0) 编辑
摘要: 主程序代码: 1 import scrapy 2 from scrapyDemo.items import ScrapydemoItem 3 4 class PostSpider(scrapy.Spider): 5 name = 'home' 6 # allowed_domains = ['www. 阅读全文
posted @ 2018-12-18 18:13 北伽 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 爬虫代码: 1 import scrapy 2 from selenium import webdriver 3 4 class WangyiSpider(scrapy.Spider): 5 name = 'wangyi' 6 # allowed_domains = ['www.xxx.com'] 阅读全文
posted @ 2018-12-18 18:09 北伽 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 例如:百度输入ip查看是自己本机的ip,通过UA伪装成其他机器的ip, 爬虫代码: 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allowed_domains = ['www.xxx.c 阅读全文
posted @ 2018-12-18 18:03 北伽 阅读(1120) 评论(0) 推荐(0) 编辑
摘要: 主程序代码: 1 import scrapy 2 from selenium import webdriver 3 4 class SelenuimtestSpider(scrapy.Spider): 5 name = 'selenuimTest' 6 # allowed_domains = ['w 阅读全文
posted @ 2018-12-18 17:56 北伽 阅读(276) 评论(0) 推荐(0) 编辑
摘要: #数据源:糗事百科 爬虫代码: 1 import scrapy 2 from scrapy.linkextractors import LinkExtractor 3 from scrapy.spiders import CrawlSpider, Rule 4 5 6 class QiubaiSpi 阅读全文
posted @ 2018-12-18 17:52 北伽 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 前言: 需要在百度AI平台注册登录并创建项目。 爬虫代码 1 import scrapy 2 from BaiDuAi.items import BaiduaiItem 3 4 class AiSpider(scrapy.Spider): 5 name = 'ai' 6 # allowed_doma 阅读全文
posted @ 2018-12-18 17:48 北伽 阅读(933) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 8 下一页