秋华 - 博客园

2020年4月8日

摘要：转载自：https://www.cnblogs.com/ggjucheng/archive/2011/12/16/2290158.html 学习Linux也有一阵子了，这过程中磕磕撞撞的，遇到了问题，也解决了一些问题，学习的路子是曲折的，想总结点啥的，让刚刚学习Linux的不会望而生畏。为啥我们要阅读全文

posted @ 2020-04-08 10:08 秋华阅读(177) 评论(0) 推荐(0) 编辑

2020年4月6日

scrapy 基础组件专题（十四）：scrapy CookiesMiddleware源码

摘要：一 Scrapy框架--cookie的获取/传递/本地保存 1. 完成模拟登陆2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中3. 再次使用时从本地的cookie.txt中读取cookie,省略模拟登陆. Cookie的传递和提取 from scrapy.http.coo 阅读全文

posted @ 2020-04-06 22:17 秋华阅读(701) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（十三）：scrapy 处理验证码

摘要： pass 阅读全文

posted @ 2020-04-06 12:22 秋华阅读(291) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（十二）：scrapy 模拟登录

摘要： 1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址，发送post请求存储cookie 1.3找到对应的form表单，自动解析input标签，自动解析post请求的url地址，自动带上数据，自动发送请求 2. scrapy携带cookies直接获取需要登陆后的页面阅读全文

posted @ 2020-04-06 12:21 秋华阅读(585) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（八）：scrapy-redis 框架分析

摘要： scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征：  分布式爬取您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。  分布阅读全文

posted @ 2020-04-06 12:19 秋华阅读(553) 评论(0) 推荐(0) 编辑

2020年4月5日

scrapy 基础组件专题（九）：scrapy-redis 源码分析

摘要：下面我们来看看，scrapy-redis的每一个源代码文件都实现了什么功能，最后如何实现分布式的爬虫系统： connection.py 连接得配置文件 defaults.py 默认得配置文件 dupefilter.py 去重规则 picklecompat.py 格式化 pipelines.py 序列阅读全文

posted @ 2020-04-05 20:54 秋华阅读(372) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（七）：scrapy 调度器、调度器中间件、自定义调度器

摘要：一、调度器配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过设置SCHEDULER值来使用自定义的调度器，源码 import os import json i 阅读全文

posted @ 2020-04-05 20:52 秋华阅读(2140) 评论(0) 推荐(1) 编辑

scrapy 基础组件专题（六）：自定义命令

摘要：写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。一、单爬虫在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码： from scrapy.cmdline import execute if __name__ == "__main__": execute(["scrapy" 阅读全文

posted @ 2020-04-05 20:07 秋华阅读(268) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（五）：自定义扩展

摘要：通过scrapy提供的扩展功能, 我们可以编写一些自定义的功能, 插入到scrapy的机制中一、编写一个简单的扩展我们现在编写一个扩展, 统计一共获取到的item的条数我们可以新建一个extensions.py # extendsions.py # -*- coding: utf-8-*- fr 阅读全文

posted @ 2020-04-05 19:50 秋华阅读(376) 评论(0) 推荐(0) 编辑

scrapy 基础组件专题（四）：信号运用

摘要：一、scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem class CcidcomSpider(scrapy.Spider): name = 'ccidcomSp 阅读全文

posted @ 2020-04-05 19:38 秋华阅读(555) 评论(0) 推荐(0) 编辑

秋华

公告