摘要:
scrapy请求传参 作用:实现深度爬取 爬取多个层级对应的页面数据 使用场景:爬取的数据没有在同一张页面 在手动请求的时候传递item: yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback callb 阅读全文
摘要:
提高scrapy爬取效率的五个方法 提升scrapy爬取数据的效率:只要对配置文件中的配置做出相应修改即可 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。 在settings配置文件中修改 CONCURRENT_REQUESTS = 100 值为100,并发设置成了为100。 阅读全文
摘要:
Scrapy实现图片爬取 1.在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道 在管道文件对图片进行下载和持久化存储 class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start 阅读全文
摘要:
Scrapy实现多页数据爬取 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对应页面中的数据 对后面的页码的数据 阅读全文
摘要:
Scrapy概述 框架:scrapy,pyspider 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板. 我们只需要学习框架中封装好的相关功能的使用即可. scrapy集成了哪些功能: 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作..... 环境 阅读全文
摘要:
requests模块和urllib模块爬取图片 requests模块 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik 阅读全文
摘要:
selenium 概念:基于浏览器自动化的一个模块. selenium和爬虫之间的关联是什么? 便捷的获取页面中动态加载的数据 requests模块进行数据爬取:可见非可得 selenium:可见即可得 主要用于爬取动态加载的数据,直接用selenium就可以获取 注意点:selenium完全对浏览 阅读全文
摘要:
基于单线程+多任务异步协程实现异步爬取 使用asyncio加上aiohttp 协程对象 协程:对象,可以把协程当做是一个特殊的函数,如果一个函数的定义被async关键字所修饰,该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象。 from time import sleep 阅读全文
摘要:
基于线程池实现异步爬取dummy 使用multiprocessing.dummy中的Pool池 # 先构建要访问url的列表 import requests url = 'https://www.qiushibaike.com/text/page/%d/' urls = [] for page in 阅读全文
摘要:
requests模块使用 requests: get/post: url data/params:对请求参数的封装 headers:UA伪装 proxies:代理,字典形式{'代理类型':'代理ip,port'} 动态加载的数据: 由另一个额外的请求请求到的数据 ajax js 如何鉴定页面中是否有 阅读全文