上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: scrapy请求传参 作用:实现深度爬取 爬取多个层级对应的页面数据 使用场景:爬取的数据没有在同一张页面 在手动请求的时候传递item: yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback callb 阅读全文
posted @ 2020-06-09 17:19 Hedger_Lee 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 提高scrapy爬取效率的五个方法 提升scrapy爬取数据的效率:只要对配置文件中的配置做出相应修改即可 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。 在settings配置文件中修改 CONCURRENT_REQUESTS = 100 值为100,并发设置成了为100。 阅读全文
posted @ 2020-06-09 14:49 Hedger_Lee 阅读(533) 评论(0) 推荐(0) 编辑
摘要: Scrapy实现图片爬取 1.在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道 在管道文件对图片进行下载和持久化存储 class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start 阅读全文
posted @ 2020-06-09 14:45 Hedger_Lee 阅读(154) 评论(0) 推荐(0) 编辑
摘要: Scrapy实现多页数据爬取 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对应页面中的数据 对后面的页码的数据 阅读全文
posted @ 2020-06-09 14:36 Hedger_Lee 阅读(562) 评论(0) 推荐(0) 编辑
摘要: Scrapy概述 框架:scrapy,pyspider 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板. 我们只需要学习框架中封装好的相关功能的使用即可. scrapy集成了哪些功能: 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作..... 环境 阅读全文
posted @ 2020-06-09 14:29 Hedger_Lee 阅读(147) 评论(0) 推荐(0) 编辑
摘要: requests模块和urllib模块爬取图片 requests模块 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik 阅读全文
posted @ 2020-06-09 12:18 Hedger_Lee 阅读(150) 评论(0) 推荐(0) 编辑
摘要: selenium 概念:基于浏览器自动化的一个模块. selenium和爬虫之间的关联是什么? 便捷的获取页面中动态加载的数据 requests模块进行数据爬取:可见非可得 selenium:可见即可得 主要用于爬取动态加载的数据,直接用selenium就可以获取 注意点:selenium完全对浏览 阅读全文
posted @ 2020-06-09 12:16 Hedger_Lee 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 基于单线程+多任务异步协程实现异步爬取 使用asyncio加上aiohttp 协程对象 协程:对象,可以把协程当做是一个特殊的函数,如果一个函数的定义被async关键字所修饰,该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象。 from time import sleep 阅读全文
posted @ 2020-06-09 12:13 Hedger_Lee 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 基于线程池实现异步爬取dummy 使用multiprocessing.dummy中的Pool池 # 先构建要访问url的列表 import requests url = 'https://www.qiushibaike.com/text/page/%d/' urls = [] for page in 阅读全文
posted @ 2020-06-09 12:10 Hedger_Lee 阅读(123) 评论(0) 推荐(0) 编辑
摘要: requests模块使用 requests: get/post: url data/params:对请求参数的封装 headers:UA伪装 proxies:代理,字典形式{'代理类型':'代理ip,port'} 动态加载的数据: 由另一个额外的请求请求到的数据 ajax js 如何鉴定页面中是否有 阅读全文
posted @ 2020-06-09 12:09 Hedger_Lee 阅读(164) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页