PYTHON 简单的网页图片爬虫
直接上代码:
''' 简单的网页图片爬虫 要先安装requests,BeautifulSoup的库 pip install requests pip install bs4 是一个可以从HTML或XML文件中提取数据的Python库 pip install lxml ''' import requests #导入requests库 from bs4 import BeautifulSoup def get_htmls(pages=list(range(2, 5))): #获取待爬取的网页 pages_list = [] for page in pages: url = f"https://pic.netbian.com/4kfengjing/index_{page}.html" #网址 response = requests.get(url) response.encoding = 'gbk' pages_list.append(response.text) return pages_list def get_picturs(htmls): #获取所有图片,并下载 for html in htmls: soup = BeautifulSoup(html, 'html.parser') #解析html或xml # print(soup.prettify()) #把要解析的字符串以标准的缩进格式输出 # print(soup.title.string) #输出HTML中title节点的文本内容 # print(soup.link.attrs) #中间的link是页签?比如<link> <title> <head> # print(soup.link.attrs['href']) #指定节点的数据 pic_li = soup.find('div', id='main').find('div', class_='slist').find( 'ul', class_='clearfix') image_path = pic_li.find_all('img') for file in image_path: pic_name = './partice05' + file['alt'].replace(" ", '_') + '.jpg' src = file['src'] src = f"https://pic.netbian.com/{src}" response = requests.get(src) with open(pic_name, 'wb') as f: f.write(response.content) print("picturs dowmload in:{}".format(pic_name)) htmls = get_htmls(pages=list(range(2, 3))) #得到网页的代码list # print(htmls) get_picturs(htmls)
posted on 2023-09-07 09:45 seven1314pp 阅读(28) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通