Scrapy命令行工具

一、任务描述

  本实验任务主要对Scrapy命令行工具进行一些基本操作,通过完成本实验任务,要求学生熟练掌握Scrapy命令行工具,并对Scrapy命令行的基本操作进行整理并填写工作任务报告。

二、任务目标

1、掌握Scrapy的命令行操作

三、任务环境

Ubuntu16.04、Python2.7

四、任务分析

  Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

五、任务实施

步骤1、环境准备

  右击Ubuntu操作系统桌面,从弹出菜单中选择【Open in Terminal】命令 打开终端。

  通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。

 

图1 切换目录

  【mkdir scrapy】在home目录下创建scrapy文件夹。

图2 创建文件夹

步骤2、全局命令

  【scrapy startproject [project_name]】用于创建一个名为project_name的Scrapy项目。

图3 创建Scrapy项目

  【scrapy settings [options]】在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定

图4 项目设定值

  【scrapy shell [url]】用来启动Scrapy shell,,URL为可选

图5 启动shell
图6 效果图

  【scrapy fetch [url]】使用scrapy下载器下载给定的URL,并将获取到的内容送到标准输出。该命令以Spider下载页面的方式获取页面,如果是在项目中运行,fetch将会使用项目中Spider的属性访问。如果在非项目中运行,则会使用默认Scrapy downloader设定。

图7 获取页面

  【scrapy view [url]】在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展示

图8 URL

  浏览器打开百度页面。

图9 打开百度

  【scrapy version [-v]】输出Scrapy版本,配合-v使用,该命令同时输出Python、Twisted以及平台的信息,方便Bug提交。

图10 Scrapy版本

  【scrapy bench】用于运行benchmark测试,测试Scrapy在硬件上的效率
  【scrapy runspider spider_file.py】在未创建项目的情况下,运行一个编写好的spider模块。

步骤3、项目命令

  【cp -R /home/soft/movie /home/scrapy/】拷贝Scrapy项目

图11 拷贝项目

  【scrapy crawl [spider]】用来使用Spider进行爬取

图12 运行项目

  查看爬取后的内容。

图13 爬取内容

  【scrapy check [spider]】运行contract检查。

图14 检查contract

  【scrapy list】列出当前项目中所有可用的spider,每行输出一个spider。

图15 爬虫列表

  【scrapy edit [spider]】使用设定的编辑器编辑给定的spider。

图16 编辑爬虫
图17 编辑

  【scrapy parse [url] [options]】获取给定的URL并使用相应的Spider分析处理。

  【scrapy genspider [-t template] [name] [domail]】可以在当前项
目中创建Spider。

posted @ 2018-05-17 12:42  薛乔毓  阅读(662)  评论(0编辑  收藏  举报