python爬虫scrapy框架的使用

总结

scrapy startproject name
scrapy genspider baidu http://www.baidu.com
scrapy crawl baidu
# 常用函数
response.text
		.body
		.xpath
		.extract			提取selector对象的data属性值
		.extract_first		提取的selector列表的第一个数据

scrapy项目创建

scrapy startproject scrapy_baidu_091

image

创建爬虫文件

spider中创建爬虫文件
image

# scrapy genspider 名称 域名(不写http)
scrapy genspider baidu http://www.baidu.com

image

运行爬虫

# scrapy crawl 爬虫名称
scrapy crawl baidu

image

不遵守robots协议

image

项目介绍

项目结构

项目名字
	项目名字
		spiders文件夹(存储的是爬虫文件)
			init
			自定义的爬虫文件		核心功能文件******
		init
		items			定义数据结构的地方 爬取的数据都包含哪些
		middleware		中间件 代理
		pipelines		管道 用来处理数据下载的数据
		settings		配置文件 robots协议 ua定义等

scrapy_crawlspider的使用

创建流程

scrapy startproject name
scrapy genspider -t crawl read https://www.dushu.com/book/1188.html

posted @ 2023-04-17 19:31  又一岁荣枯  阅读(15)  评论(0编辑  收藏  举报