scraypy笔记
学习资料:http://www.scrapyd.cn/
下载页面
scrapy fetch 网址
创建项目
scrapy startproject 目录名称
执行命令
scrapy crawl 爬虫名称
能够Ctrl+C暂停,开始命令
scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称-1
数据提取工具
scrapy shell 网址
样式获取
>>> response.css('title')
获取title标签
>>> response.css('title').extract()
获取title标签第一个元素
>>> response.css('title').extract()[0]
>>> response.css('title').extract_first()
获取title标签标题
>>> response.css('title::text').extract_first()
获取当前DIV下在样式
>>> response.css('p.f14')
获取当前p标签的样式ID下的文本名称
>>> response.css('p.f14::text').extract()[0]
获取当前样式下的样式的TITLE名称
>>> response.css('.links-list .uk-float-left::text').extract()[0]
清空命令窗口
cls
占位符[空]
pass