scrapy (四)基本配置

scrapy使用细节配置

一、建立项目

1scrapy startproject 项目名字

2、进入项目:

  scrapy genspider 名字 不带http的根网址

3、默认模板(或改变模板)

默认模板:class HuaSpider(scrapy.Spider)

改变模板scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

4、目录结构

wps56D1.tmp 

 

二、setting基本设置

1、log日志输出的级别:

      INFOERROR......

      LOG_LEVEL = 'ERROR'

2、将log写到文件中(自动创建log.txt

        LOG_FILE = './log.txt'

3robots

       是否遵守各大网站的爬虫规则(robots),默认是True,为了得到我们想要的数据,设置ROBOTSTXT_OBEYF     alse: ROBOTSTXT_OBEY = False

       查看各大网站的规则:根网址+/robots.txt,例如https://www.baidu.com/robots.txt

4、设置代理middlewares.py

下载中间件设置:

    1) setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

   'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

    2)middlewares.py中添加代理

class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式:request.meta['proxy'] ='http://ip:port'

私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'

 

wps56D2.tmp 

 

3)回到setting,解开下载中间件DOWNLOADER_MIDDLEWARES

 

wps56D3.tmp 

 

 

欢迎关注小婷儿的博客:

csdnhttps://blog.csdn.net/u010986753

博客园:http://www.cnblogs.com/xxtalhr/

 

有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ 87605025

 

OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

 

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

 

 

    wps56D4.tmp    wps56D5.tmp

 

posted @ 2018-06-11 21:57  小婷儿  阅读(636)  评论(0编辑  收藏  举报
levels of contents