摘要: 解析response parse()方法的参数 response 是start_urls里面的链接爬取后的结果。所以在parse()方法中,我们可以直接对response对象包含的内容进行解析,比如浏览请求结果的网页源代码,或者进一步分析源代码内容,或者找出结果中的链接而得到下一个请求 一.resp 阅读全文
posted @ 2020-04-10 19:53 Hank·Paul 阅读(6303) 评论(1) 推荐(2) 编辑
摘要: 爬取数据并解析 爬虫文件中parse方法中写: def parse(self, response): # 解析,请求回来,自动执行parser,在这个方法中做解析 # 解析 方式一:使用bs4解析 # from bs4 import BeautifulSoup # soup=BeautifulSou 阅读全文
posted @ 2020-04-10 19:45 Hank·Paul 阅读(430) 评论(0) 推荐(0) 编辑
摘要: Scrapy 架构 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 它可以分为如下的几个部分。 Engine引擎(大总管),用来处理 阅读全文
posted @ 2020-04-10 19:03 Hank·Paul 阅读(656) 评论(0) 推荐(0) 编辑
摘要: scrapy项目架构 -project # 项目名 -project # 跟项目一个名,文件夹 -spiders # spiders:放着爬虫 genspider生成的爬虫,都放在这下面 -__init__.py -chouti.py # 抽屉爬虫 -cnblogs.py # cnblogs 爬虫 阅读全文
posted @ 2020-04-10 18:36 Hank·Paul 阅读(403) 评论(0) 推荐(0) 编辑
摘要: scrapy 框架的安装 安装的详细过程:https://cuiqingcai.com/5421.html Windows平台 如果 pip3 install scrapy 安装不上,则执行下列步骤安装 1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel 阅读全文
posted @ 2020-04-10 17:58 Hank·Paul 阅读(1286) 评论(0) 推荐(0) 编辑