spider基础
1、爬虫框架过程:
1、创建项目
scrapy startproject yangguang
2、创建爬虫
scrapy genspider yg 域名
创建 crawlspider
scrapy genspider -t crawl csdn csdn.com
2、运行爬虫
scrapy crawl **
2、什么是日志等级?
logging模块,可以输出到屏幕,可以保存到本地
1. logging.CRITICAL - for critical errors (highest severity)
2. logging.ERROR - for regular errors
3. logging.WARNING - for warning messages
4. logging.INFO - for informational messages
5. logging.DEBUG - for debugging messages (lowest severity)
动态显示log
tail -f xxx.log
3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
也可以用来测试XPath表达式
使用方法:
scrapy shell http://www.itcast.cn/channel/teacher.shtml
dir(scrapy)
response.url: 当前响应的url地址
response.request.url: 当前响应 对应的请求的url地址
response.headers: 响应头
response.body: 响应体,也就是html代码,默认是byte类型
response.requests.headers:当前响应的请求头