spider基础

1、爬虫框架过程：
　　1、创建项目
　　　　　　scrapy startproject yangguang

　　2、创建爬虫
　　　　　　scrapy genspider yg 域名

　　　　创建 crawlspider
　　　　　　scrapy genspider -t crawl csdn csdn.com

　　2、运行爬虫
　　　　　　scrapy crawl **

2、什么是日志等级？
　　　　logging模块,可以输出到屏幕，可以保存到本地

　　1. logging.CRITICAL - for critical errors (highest severity)

　　2. logging.ERROR - for regular errors

　　3. logging.WARNING - for warning messages

　　4. logging.INFO - for informational messages

　　5. logging.DEBUG - for debugging messages (lowest severity)

　　动态显示log
　　　　　　　　tail -f xxx.log

3、Scrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，
　　也可以用来测试XPath表达式
　　使用方法：
　　　　scrapy shell http://www.itcast.cn/channel/teacher.shtml

　　　　dir(scrapy)

　　response.url：　　　　当前响应的url地址
　　response.request.url：　当前响应对应的请求的url地址

　　response.headers：　　响应头
　　response.body：　　响应体，也就是html代码，默认是byte类型
　　response.requests.headers：当前响应的请求头

posted @ 2017-09-23 21:46 西湖歌舞几时休阅读(125) 评论(0) 收藏举报

刷新页面返回顶部