scraypy笔记

学习资料:http://www.scrapyd.cn/

 

下载页面

scrapy fetch 网址

 

创建项目

scrapy startproject 目录名称

 

执行命令

scrapy crawl 爬虫名称

 

能够Ctrl+C暂停,开始命令

scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称-1

 

数据提取工具

scrapy shell 网址

 

样式获取

>>> response.css('title')

 

获取title标签

>>> response.css('title').extract()

 

获取title标签第一个元素

>>> response.css('title').extract()[0]

>>> response.css('title').extract_first()

 

获取title标签标题

>>> response.css('title::text').extract_first()

 

获取当前DIV下在样式

>>> response.css('p.f14')

 

获取当前p标签的样式ID下的文本名称

>>> response.css('p.f14::text').extract()[0]

 

获取当前样式下的样式的TITLE名称

>>> response.css('.links-list .uk-float-left::text').extract()[0]

 

清空命令窗口

cls

 

占位符[空]

pass

 

posted @ 2020-06-23 11:57  快乐的在一起  阅读(143)  评论(0编辑  收藏  举报