python爬虫scrapy框架的使用
总结
scrapy startproject name
scrapy genspider baidu http://www.baidu.com
scrapy crawl baidu
# 常用函数
response.text
.body
.xpath
.extract 提取selector对象的data属性值
.extract_first 提取的selector列表的第一个数据
scrapy项目创建
scrapy startproject scrapy_baidu_091
创建爬虫文件
在spider
中创建爬虫文件
# scrapy genspider 名称 域名(不写http)
scrapy genspider baidu http://www.baidu.com
运行爬虫
# scrapy crawl 爬虫名称
scrapy crawl baidu
不遵守robots协议
项目介绍
项目结构
项目名字
项目名字
spiders文件夹(存储的是爬虫文件)
init
自定义的爬虫文件 核心功能文件******
init
items 定义数据结构的地方 爬取的数据都包含哪些
middleware 中间件 代理
pipelines 管道 用来处理数据下载的数据
settings 配置文件 robots协议 ua定义等
scrapy_crawlspider的使用
创建流程
scrapy startproject name
scrapy genspider -t crawl read https://www.dushu.com/book/1188.html
本文作者:又一岁荣枯
本文链接:https://www.cnblogs.com/java-six/p/17327222.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步