随笔- 1098 文章- 0 评论- 87 阅读- 396万

scrapy的allowed_domains设置含义

设置allowed_domains的含义是过滤爬取的域名，在插件OffsiteMiddleware启用的情况下（默认是启用的），不在此允许范围内的域名就会被过滤，而不会进行爬取

但是有一个问题：像下面这种情况，对于start_urls里的起始爬取页面，它是不会过滤的，它的作用是过滤首页之后的页面-----待验证

#/usr/bin/env python
#coding:utf-8
import scrapy
# import sys
# import os
from scrapy_study.items import DemoItem

class DemoScrapy(scrapy.Spider):
    name = 'demoscrapy'
    
    # start_urls = ['http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html']
    allowed_domains = ["scrapypython.2org"]
    # start_urls = ['https://docs.python.org/2/library/os.path.html']
    start_urls = ['http://yogoup.sinaapp.com/']
    def parse(self,response):
        print response.body

posted @ 2017-12-11 11:00 脚本小娃子阅读(19564) 评论(3) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

公告

昵称：脚本小娃子
园龄： 10年4个月
粉丝： 151
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

沧海一粟，何以久远

---------------------------心恒方远

scrapy的allowed_domains设置含义

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论