爬虫妹子网,简单粗暴
小弟虽然是一个入门的小白
奈何也想写写发发,并没有其他的意思
就是想锻炼自己
想锻炼就自己最好的办法就是自己去写东西啦
写的不好的地方和需要改进的地方,如果又看到这个的大佬,还望不吝赐教
小弟抱着一个虔诚的学习心态而来,希望能提升自己
话不多说直接上代码
# -*- coding:utf-8 -*-
import requests,os,lxml
from bs4 import BeautifulSoup
class Meizut():
def __init__(self,url):
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36",
"Referer": "http://www.mzitu.com/all/"}
self.headers = headers
self.url = url
def req(self,url):
'''请求方法'''
start_html = requests.get(url,headers=self.headers)
return start_html
def soup(self,html):
#爬取页面
soup = BeautifulSoup(html.text,"lxml")
return soup
def test(self):
nub = 1
'''获取图片下载地址'''
html_firsr = self.req(self.url)#获取网页text信息
soup_first = self.soup(html_firsr)#爬取页面
all_a = soup_first.find("ul",class_='archives').find_all('a')#查找标签
#循环读取图片类型链接地址
for a in all_a:
href = a["href"]
html_sec = self.req(href)#获取网页text信息
html_Soup = self.soup(html_sec)#爬取页面
max_span = html_Soup.find('div', class_='pagenavi').find_all('span')[-2].get_text()
##查找所有的<span>标签获取第十个的<span>标签中的文本也就是最后一个页面了。
for page in range(1, int(max_span) + 1):
page_url = href + '/' + repr(page) ##同上
# print(page_url) ##这个page_url就是每张图片的页面地址啦!但还不是实际地址!
save_html = self.req(page_url)
save_Soup = self.soup(save_html)
save_url = save_Soup.find('div', class_='main-image').find('img')['src']
'''保存图片'''
name = save_url[-9:-4]
img = self.req(save_url)
with open(os.getcwd() + "\\妹子\\" + name + '.jpg', 'wb') as f:
f.write(img.content)
print("第",nub,"张保存完成")
f.close()
nub = nub+1
if __name__ =="__main__":
meizi_url = "http://www.mzitu.com/all/"
thing = Meizut(meizi_url)
thing.test()
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架