Scrapy计划表

第一步

Scrapy 一览：理解Scrapy是什么，他能帮到你什么
安装指南：在电脑上安装Scrapy
Scrapy 教程：编写第一个Scrapy项目
示例：通过前人写好的Scrapy项目进行学习

基础概念

命令行工具：学习使用命令行工具管理Scrapy项目
爬虫：编写规则爬取网站
选择器：使用XPath从网页中抽取数据
Scrapy shell：在一个交互环境中测试抽取代码
Items：定义要抓取的数据字段
Item 加载器
Item 管道
Post处理和数据存储.
信息流导出：使用不同的格式输出和存储抓取的数据
Requests and Responses：理解用于HTTP请求和响应的类
链接抽取器
配置：学习怎样配置Scrapy，查看所有可用配置
异常：查看所有可用异常及其含义

内建服务

日志记录：学习如何在Scrapy项目中使用Python的内建日志模块
统计收集：收集Scrapy爬虫的统计信息
发送邮件：当某些事件发生时发送邮件提醒
Telnet 控制台：使用后Python控制台检视一整正在运行的爬虫
Web 服务：使用Web服务管理和控制爬虫

特定问题的解决

FAQ(常见问题)
爬虫调试：学习如何调试scrapy爬虫吃的一般问题
Spiders Contracts
一般性练习
Broad Crawls
使用Firefox进行数据抓取
使用Firebug
Debug内存泄漏
下载和处理文件、图片
爬虫部署
AutoThrottle extension
压力测：测试爬虫在实际机器上的性能表现
任务暂停和恢复

扩展Scrapy

架构概览：理解Scrapy的架构
下载器中间件：定制网页请求和下载
爬虫中间件：定制爬虫的输入和输出
扩展：使用定制功能扩展Scrapy
核心 API：在扩展和中间件中使用一扩展Scrapy的功能
信号：查看所有可用的信号及怎样使用它们
数据导出器：快速导出抓取的数据到文件（XML,CSV等等）

posted @ 2017-09-27 15:52 Tacey Wong 阅读(496) 评论(0) 收藏举报

刷新页面返回顶部