关闭页面特效

基于spider的全站数据爬取

1|0基于spider的全站数据爬取


  • 基于spider的全站数据爬取
    • 就是将网站中某板块下的全部页码对应的页面数据进行爬取
    • 需求:爬取校花网中的照片名称
    • 实现方式:
      • 将所有页面的url添加到start_urls列表(不推荐)
      • 自行手动进行请求发送(推荐)
        • yield scrapy.Request(url,callback):callbakc专门用作于数据解析
import scrapy class XiaohuaSpider(scrapy.Spider): name = 'xiaohua' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.521609.com/tuku/index.html'] url = 'http://www.521609.com/tuku/index_%d.html' page_num = 2 def parse(self, response): li_list = response.xpath('/html/body/div[4]/div[3]/ul/li') for li in li_list: img_name = li.xpath('./a/p/text()').extract_first() print(img_name) if self.page_num <= 6: new_url = format(self.url % self.page_num) print(new_url) self.page_num += 1 # 手动请求发送:callback回调函数是专门用作数据解析 yield scrapy.Request(url=new_url, callback=self.parse)

__EOF__

作  者YXH
出  处https://www.cnblogs.com/YxinHaaa/p/14453858.html
关于博主:编程路上的小学生,热爱技术,喜欢专研。评论和私信会在第一时间回复。或者直接私信我。
版权声明:署名 - 非商业性使用 - 禁止演绎,协议普通文本 | 协议法律文本
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!

posted @   YxinHaaa  阅读(14)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
0
0
关注
跳至底部
点击右上角即可分享
微信分享提示