Hedger_Lee

2020年6月9日

摘要： scrapy请求传参作用：实现深度爬取爬取多个层级对应的页面数据使用场景：爬取的数据没有在同一张页面在手动请求的时候传递item： yield scrapy.Request(url,callback,meta={'item':item}) 将meta这个字典传递给callback callb 阅读全文

posted @ 2020-06-09 17:19 Hedger_Lee 阅读(297) 评论(0) 推荐(0) 编辑

提高scrapy爬取效率的五个方法

摘要：提高scrapy爬取效率的五个方法提升scrapy爬取数据的效率：只要对配置文件中的配置做出相应修改即可增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改 CONCURRENT_REQUESTS = 100 值为100,并发设置成了为100。阅读全文

posted @ 2020-06-09 14:49 Hedger_Lee 阅读(533) 评论(0) 推荐(0) 编辑

Scrapy实现图片爬取

摘要： Scrapy实现图片爬取 1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道在管道文件对图片进行下载和持久化存储 class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start 阅读全文

posted @ 2020-06-09 14:45 Hedger_Lee 阅读(154) 评论(0) 推荐(0) 编辑

Scrapy实现多页数据爬取

摘要： Scrapy实现多页数据爬取 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对应页面中的数据对后面的页码的数据阅读全文

posted @ 2020-06-09 14:36 Hedger_Lee 阅读(562) 评论(0) 推荐(0) 编辑

Scrapy使用

摘要： Scrapy概述框架：scrapy，pyspider 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板. 我们只需要学习框架中封装好的相关功能的使用即可. scrapy集成了哪些功能: 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作..... 环境阅读全文

posted @ 2020-06-09 14:29 Hedger_Lee 阅读(147) 评论(0) 推荐(0) 编辑

requests模块和urllib模块爬取图片

摘要： requests模块和urllib模块爬取图片 requests模块 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik 阅读全文

posted @ 2020-06-09 12:18 Hedger_Lee 阅读(150) 评论(0) 推荐(0) 编辑

selenium

摘要： selenium 概念：基于浏览器自动化的一个模块. selenium和爬虫之间的关联是什么? 便捷的获取页面中动态加载的数据 requests模块进行数据爬取:可见非可得 selenium:可见即可得主要用于爬取动态加载的数据，直接用selenium就可以获取注意点：selenium完全对浏览阅读全文

posted @ 2020-06-09 12:16 Hedger_Lee 阅读(157) 评论(0) 推荐(0) 编辑

基于单线程+多任务异步协程实现异步爬取

摘要：基于单线程+多任务异步协程实现异步爬取使用asyncio加上aiohttp 协程对象协程：对象，可以把协程当做是一个特殊的函数，如果一个函数的定义被async关键字所修饰，该特殊的函数被调用后函数内部的程序语句不会被立即执行，而是会返回一个协程对象。 from time import sleep 阅读全文

posted @ 2020-06-09 12:13 Hedger_Lee 阅读(188) 评论(0) 推荐(0) 编辑

基于线程池实现异步爬取dummy

摘要：基于线程池实现异步爬取dummy 使用multiprocessing.dummy中的Pool池 # 先构建要访问url的列表 import requests url = 'https://www.qiushibaike.com/text/page/%d/' urls = [] for page in 阅读全文

posted @ 2020-06-09 12:10 Hedger_Lee 阅读(123) 评论(0) 推荐(0) 编辑

requests模块基本使用

摘要： requests模块使用 requests: get/post: url data/params:对请求参数的封装 headers:UA伪装 proxies：代理，字典形式{'代理类型':'代理ip,port'} 动态加载的数据: 由另一个额外的请求请求到的数据 ajax js 如何鉴定页面中是否有阅读全文

posted @ 2020-06-09 12:09 Hedger_Lee 阅读(164) 评论(0) 推荐(0) 编辑

公告