spider基础

1、爬虫框架过程:
  1、创建项目
      scrapy startproject yangguang

  2、创建爬虫
      scrapy genspider yg 域名

    创建 crawlspider
      scrapy genspider -t crawl csdn csdn.com

  2、运行爬虫
      scrapy crawl  **

2、什么是日志等级?
    logging模块,可以输出到屏幕,可以保存到本地

  1. logging.CRITICAL - for critical errors (highest severity)

  2. logging.ERROR - for regular errors

  3. logging.WARNING - for warning messages

  4. logging.INFO - for informational messages

  5. logging.DEBUG - for debugging messages (lowest severity)

   动态显示log
        tail -f xxx.log

3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
  也可以用来测试XPath表达式
  使用方法:
    scrapy shell http://www.itcast.cn/channel/teacher.shtml

    dir(scrapy)

  response.url:      当前响应的url地址
  response.request.url: 当前响应 对应的请求的url地址

  response.headers:   响应头
  response.body:        响应体,也就是html代码,默认是byte类型
  response.requests.headers:当前响应的请求头

 

posted @ 2017-09-23 21:46  西湖歌舞几时休  阅读(118)  评论(0编辑  收藏  举报