摘要: 基于crawlspider的全站数据爬取 1.spider的子类 2 .使用流程 创建一个基于CrawlSpider的爬虫文件 scrapy genspider -t crawl spidername 蜘蛛运行后,先访问start_url给定的第一个页面, 将响应对象res返回给parse方法, p 阅读全文
posted @ 2019-10-19 18:10 眼镜儿 阅读(119) 评论(0) 推荐(0) 编辑
摘要: linkextractor: 连接提取器: 帮我们从response对象中提取指定的链接 用法: 实例化一个提取器对象, 实例化的时候我们可以传递各种参数, 指定提取规则 调用extract_links方法, 传入response对象, 返回一个列表, 里边是一个个提取到的link对象 link对象 阅读全文
posted @ 2019-10-19 17:59 眼镜儿 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: rabbitmaq的安装使用 通过阿里云yum源, 在epel园中有这个rabbitmq yum install rabbitmq-server erlang -y 启动rabbitmq-server systemclt start rabbitmq-server 开启后台管理界面 rabbitmq 阅读全文
posted @ 2019-10-19 16:47 眼镜儿 阅读(199) 评论(0) 推荐(0) 编辑