上一页 1 ··· 3 4 5 6 7 8 下一页
摘要: 1.Scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: 分布式爬取,可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布式数据 阅读全文
posted @ 2019-08-03 11:58 麦小秋 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 参考文章:https://www.cnblogs.com/alex3714/articles/5230609.html 阅读全文
posted @ 2019-08-03 11:30 麦小秋 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 1.常用xpath表达式 属性定位: #找到class属性值为song的div标签 //div[@class="song"] 层级&索引定位: #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a //div[@class="tang"]/ul/li[2]/a 阅读全文
posted @ 2019-08-03 01:50 麦小秋 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 1.常用匹配规则 \w 匹配字母数字及下划线 \W 匹配f非字母数字下划线 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字 \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束,如果存在换行,只匹配换行前的结束字符串 \z 匹配字符串结束 阅读全文
posted @ 2019-08-02 00:23 麦小秋 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 1.BeautifulSoup介绍 Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。 使用流程: - 导包:from bs4 import 阅读全文
posted @ 2019-08-01 23:58 麦小秋 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1.Requests库基本使用 import requests response = requests.get("https://www.baidu.com") print(response.status_code) print(response.text) print(response.cooki 阅读全文
posted @ 2019-08-01 23:42 麦小秋 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 1.下载中间件 Downloader Middlewares,位于scrapy引擎和下载器之间的一层组件。 - 作用: 引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent,设置代理等 在下载器完成将Response传递给引擎中,下载中间件可以对响 阅读全文
posted @ 2019-08-01 23:23 麦小秋 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1.增量爬虫概念 通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。 2.增量爬虫方法 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储介质时判断内容是不是已经在介质中存在 分析:不难发现,其实增量爬取的核心是去重, 至于去重 阅读全文
posted @ 2019-08-01 21:44 麦小秋 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 1.CrawlSpider介绍 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url 阅读全文
posted @ 2019-06-29 22:39 麦小秋 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 1.Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,榄块之间的榈合程度低,可扩展性极强,可以灵活完成各种需求。 Engine:引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item:项目,它定义了爬取结果的数据结构 阅读全文
posted @ 2019-06-29 21:07 麦小秋 阅读(328) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 下一页