上一页 1 ··· 374 375 376 377 378 379 380 381 382 ··· 384 下一页
摘要: 转载自:https://www.cnblogs.com/ggjucheng/archive/2011/12/16/2290158.html 学习Linux也有一阵子了,这过程中磕磕撞撞的,遇到了问题,也解决了一些问题,学习的路子是曲折的,想总结点啥的,让刚刚学习Linux的不会望而生畏。 为啥我们要 阅读全文
posted @ 2020-04-08 10:08 秋华 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 一 Scrapy框架--cookie的获取/传递/本地保存 1. 完成模拟登陆2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中3. 再次使用时从本地的cookie.txt中读取cookie,省略模拟登陆. Cookie的传递和提取 from scrapy.http.coo 阅读全文
posted @ 2020-04-06 22:17 秋华 阅读(701) 评论(0) 推荐(0) 编辑
摘要: pass 阅读全文
posted @ 2020-04-06 12:22 秋华 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的url地址,自动带上数据,自动发送请求 2. scrapy携带cookies直接获取需要登陆后的页面 阅读全文
posted @ 2020-04-06 12:21 秋华 阅读(585) 评论(0) 推荐(0) 编辑
摘要: scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征:  分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。  分布 阅读全文
posted @ 2020-04-06 12:19 秋华 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 下面我们来看看,scrapy-redis的每一个源代码文件都实现了什么功能,最后如何实现分布式的爬虫系统: connection.py 连接得配置文件 defaults.py 默认得配置文件 dupefilter.py 去重规则 picklecompat.py 格式化 pipelines.py 序列 阅读全文
posted @ 2020-04-05 20:54 秋华 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 一、调度器 配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过设置SCHEDULER值来使用自定义的调度器, 源码 import os import json i 阅读全文
posted @ 2020-04-05 20:52 秋华 阅读(2140) 评论(0) 推荐(1) 编辑
摘要: 写好自己的爬虫项目之后,可以自己定制爬虫运行的命令。 一、单爬虫 在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import execute if __name__ == "__main__": execute(["scrapy" 阅读全文
posted @ 2020-04-05 20:07 秋华 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 通过scrapy提供的扩展功能, 我们可以编写一些自定义的功能, 插入到scrapy的机制中 一、编写一个简单的扩展 我们现在编写一个扩展, 统计一共获取到的item的条数我们可以新建一个extensions.py # extendsions.py # -*- coding: utf-8-*- fr 阅读全文
posted @ 2020-04-05 19:50 秋华 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 一、scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem class CcidcomSpider(scrapy.Spider): name = 'ccidcomSp 阅读全文
posted @ 2020-04-05 19:38 秋华 阅读(555) 评论(0) 推荐(0) 编辑
上一页 1 ··· 374 375 376 377 378 379 380 381 382 ··· 384 下一页