上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页
摘要: 代理池项目 github_addr:https://github.com/Norni/proxy_pool 1、代理池的概述 1.1什么是代理池 代理池是由代理IP组成的池子,它可以提供多个稳定可用的代理IP 1.2为什么要实现代理池 应付ip反爬 免费代理是不稳定的,提高使用效率 部分收费代理也不 阅读全文
posted @ 2020-07-05 12:53 Norni 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 在settings.py同级文件__init__.py中添加以下文件后 import pymysql pymysql.install_as_MySQLdb() 执行python manage.py,报错“ModuleNotFoundError: No module named 'MySQLdb'” 阅读全文
posted @ 2020-06-22 23:10 Norni 阅读(292) 评论(0) 推荐(0) 编辑
摘要: Scrapy提供扩展(扩展是正常的python类,它们会在Scrapy启动时被实例化、初始化)机制,让人能将自定义功能绑定到Scrapy中。 1、Scrapy中的内置扩展设置EXTENSIONS_BASE 扩展在扩展类被实例化时加载和激活,实例化代码必须在类的构造函数(__init__)中执行。 ( 阅读全文
posted @ 2020-06-17 20:56 Norni 阅读(652) 评论(0) 推荐(0) 编辑
摘要: Spider中间件可以用来处理发送给Spider的Response及Spider产生的Item和Request。 1、Scrapy内置的SPIDER_MIDDLEWARES_BASE (1)'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware 阅读全文
posted @ 2020-06-17 15:19 Norni 阅读(429) 评论(0) 推荐(1) 编辑
摘要: 1、DOWNLOAD_DELAY 在settings中设置 DOWNLOAD_DELAY=2 #延时2秒,不能动态改变,导致访问延时都差不多,也容易被发现 2、RANDOMIZE_DOWNLOAD_DELAY 在settings中设置 RANDOMIZE_DOWNLOAD_DELAY=True # 阅读全文
posted @ 2020-06-17 14:10 Norni 阅读(5988) 评论(0) 推荐(2) 编辑
摘要: 1、Request对象 一个Request对象代表着一个HTTP请求,通常在Spider类中产生,然后传递给下载器,最后返回一个响应。 类原型:class scrapy.http.Request( url(string), # 请求的连接 callback(callable), #指定用于解析请求响 阅读全文
posted @ 2020-06-17 12:58 Norni 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Scrapy在Twisted异步网络库上构建,所以如果程序必须在Twisted reactor里运行 1、方式一:使用CrawlerProcess类 CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设 阅读全文
posted @ 2020-06-17 11:29 Norni 阅读(483) 评论(0) 推荐(0) 编辑
摘要: scrapy为下载的item中包含的文件提供了一个可重用的item pipeline(scrapy.pipelines.media.MediaPipeline),这些Pipeline有些共同的方法和结构。 MediaPipeline共同实现了以下特性: (1)避免重新下载最近已经下载过的数据 (2) 阅读全文
posted @ 2020-06-16 19:24 Norni 阅读(683) 评论(0) 推荐(0) 编辑
摘要: 用scrapy下载文件时报错:ValueError: Missing scheme in request url: h 通过分析发现,iamges_urls_field字段的参数为列表或其他可迭代对象,而我传入的是一个字符串,所有报错。 将出入的值修改为列表即可解决报错 阅读全文
posted @ 2020-06-16 18:39 Norni 阅读(762) 评论(0) 推荐(0) 编辑
摘要: Scrapy提供了两种类型的命令:一种必须在scrapy项目中运行,为针对项目的命令,另外一种则属于全局命令。 1、全局命令 (1)startproject命令 语法:scrapy startproject <project_name> 作用:用于创建名为project_name的scrapy项目 阅读全文
posted @ 2020-06-16 15:05 Norni 阅读(208) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页