python爬取美女源码
可以直接使用
1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #需求:解析下载图片数据 http://pic.netbian.com/4kmeinv/ 4 import requests 5 from lxml import etree 6 import os 7 if __name__ == "__main__": 8 9 url = 'https://pic.netbian.com/4kmeinv/index_%d.html' 10 headers = { 11 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36' 12 } 13 14 for n in range(1,150): 15 new_url = format(url%n) 16 print(new_url) 17 response = requests.get(url=new_url,headers=headers) 18 #手动设定响应数据的编码格式 19 # response.encoding = 'utf-8' 20 page_text = response.text 21 22 #数据解析:src的属性值 alt属性 23 tree = etree.HTML(page_text) 24 li_list = tree.xpath('//div[@class="slist"]/ul/li') 25 26 27 #创建一个文件夹 28 if not os.path.exists('./picLibs'): 29 os.mkdir('./picLibs') 30 31 for li in li_list: 32 img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0] 33 img_name = li.xpath('./a/img/@alt')[0]+'.jpg' 34 #通用处理中文乱码的解决方案 35 img_name = img_name.encode('iso-8859-1').decode('gbk') 36 37 # print(img_name,img_src) 38 #请求图片进行持久化存储 39 img_data = requests.get(url=img_src,headers=headers).content 40 img_path = f'picLibs/{n}'+img_name 41 with open(img_path,'wb') as fp: 42 fp.write(img_data) 43 print(img_name,'下载成功!!!')
没有借口
分类:
python爬虫系列
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
2019-11-18 Centos7通过源码编译的方式安装和配置Apache