requests高级之懒加载

图片懒加载：
- 主要是应用在展示图片的网页中的一种技术，该技术是指当网页刷新后，先加载局部的几张图片数据即可，随着用户滑动滚轮，当图片被显示在浏览器的可视化区域范围的话，在动态将其图片请求加载出来即可。（图片数据是动态加载出来）。
如何实现图片懒加载/动态加载？
- 使用img标签的伪属性（指的是自定义的一种属性）。在网页中，为了防止图片马上加载出来，则在img标签中可以使用一种伪属性来存储图片的链接，而不是使用真正的src属性值来存储图片链接。（图片链接一旦给了src属性，则图片会被立即加载出来）。只有当图片被滑动到浏览器可视化区域范围的时候，在通过js将img的伪属性修改为真正的src属性，则图片就会被加载出来。
爬取站长素材网站的图片资源
- url:https://sc.chinaz.com/tupian/meinvtupian.html
- 1、通过浏览器抓包工具分析，页面不是动态加载数据。
- 2、抓包定位到图片，我们发现图片的img标签，当图片显示在浏览器可视化区域时，src属性，当图片不在浏览器可视化页面时，为src2属性；
- 3、我们使用requests请求，那么都应该是非可视化页面
- 4、所以我们直接使用src2属性获取图片的地址即可

import requests,os
from lxml import etree

dirName = '站长素材美女'
if not os.path.exists(dirName):
    os.mkdir(dirName)

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',
}

url = 'https://sc.chinaz.com/tupian/meinvtupian.html'
#获取页面源码数据
res = requests.get(url = url,headers = headers)
res.encoding = 'utf8'
page_text = res.text

#数据解析
tree = etree.HTML(page_text)
div_list = tree.xpath('//*[@id="container"]/div')
# print(div_list)


for div in div_list:
    img_url = 'https:' + div.xpath('./div/a/img/@src2')[0]    #直接通过src2属性获取图片地址
    img_name = div.xpath('./div/a/img/@alt')[0] + '.jpg'
    # print(img_url)
    img_data = requests.get(url = img_url,headers = headers).content

    img_path = dirName + '/' + img_name
    with open(img_path,'wb') as fp:
        fp.write(img_data)

posted @ 2022-03-24 23:20 Tony_xiao 阅读(274) 评论(0) 编辑收藏举报

刷新页面返回顶部

Tony_xiao

requests高级之懒加载

公告