Scrapy的介绍和用法

转载:https://www.toutiao.com/i6493421606306578958/

Scrapy是爬虫必须学会的一个框架!他确实很难搞的透彻!今天就不给大家全部介绍了!还是介绍其中的CrawlSpiders吧!CrawlSpiders是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。小编推荐大家加一下这个群:103456743这个群里好几千人了!大家遇到啥问题都会在里面交流!而且免费分享零基础入门料资料web开发 爬虫资料一整套!是个非常好的学习交流地方!也有程序员大神给大家热心解答各种问题!很快满员了。欲进从速哦!各种PDF等你来下载!全部都是免费的哦!所以小编在群里等你们过来一起交流学习呢!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

一、我们先来分析一下CrawlSpiders源码

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

主要参数:① allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。② deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。③ allow_domains:会被提取的链接的domains。④ deny_domains:一定不会被提取链接的domains。⑤ restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

三、 CrawlSpider爬虫案例分析

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

youyuan.py

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

Scrapy当真是越来越火了!神级程序员详解Scrapy的介绍和用法!

posted @ 2017-11-29 10:46  小学生II  阅读(306)  评论(0编辑  收藏  举报