scrapy项目结构 和 爬取58同城的案例
scrapy项目结构:.
1. scrapy项目的结构 项目名字 项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件 核心功能文件 **************** init items 定义数据结构的地方 爬取的数据都包含哪些 middleware 中间件 代理 pipelines 管道 用来处理下载的数据 settings 配置文件 robots协议 ua定义等 2. response的属性和方法 response.text 获取的是响应的字符串 response.body 获取的是二进制数据 response.xpath 可以直接是xpath方法来解析response中的内容 response.extract() 提取seletor对象的data属性值 response.extract_first() 提取的seletor列表的第一个数据
58同城案例:
import scrapy class TcSpider(scrapy.Spider): name = 'tc' allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91'] start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91'] def parse(self, response): # 字符串 # content = response.text # 二进制数据 # content = response.body # print('===========================') # print(content) span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0] print('=======================') print(span.extract())
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术
2022-01-04 Android 项目结构