python爬取暖享图片

目标网页:http://www.axlcg.com/wmxz/1.html

  1. 首先取得第一页每一个图集的url

    可以看到图集的url实在ul class 为homeboy-ul clearfix line-dot底下的li中的a标签里面,所以我们要 一层一层地接近目标。

    		allsoup = BeautifulSoup(allurldigit)  # 得到解析后的html
    		allpage = allsoup.find('ul', attrs={'class': 'homeboy-ul clearfix line-dot'})
    		allpage2 = allpage.find_all('a') #一步找到所有的a标签
    		for allpage2index in allpage2:
    			allpage3 = allpage2index['href'] #拿到url
    			if allpage3 not in allurl: #判断一下是否已经在容器里了,不在的话才加入
    				allurl.append(allpage3) #存到allurl这个list容器里
    
  2. 获取每一页的url
    只获取一页怎么可以叫爬虫呢,我们要的是获取多页。

    可以看到下一页的url就在ul为information-page-ul clearfix底下的一个li中,这时候发现所有的li标签都是相同的,那我们怎么才能找到下一页的url呢?

    下一页的标签中的文字内容写着下一页,因此我们可以判断li中的文本内容是不是下一页,是的话跳到下一页去,爬取下一页的所有图集。

  3. 获取真正想要的img地址

    随便点击一个图集进去,这时候我们可以看到图片的地址了。

    复制一下,验证是否正确。

    发现确实是我们想要的。

    按同样的方法去获得图片的url并放到一个集合里,一个图集里也要跳到下一页的url,获取图片url,因为每一个页面只有一张。

  4. 下载图片到本地

    		urllib.request.urlretrieve(m, "D:/Desktop//image/" + str(count) + ".jpg")
    

    第一个参数是img的url,第二个参数是路径+图片的文件名。

  5. 结果

  6. 代码

    # !/usr/bin/env python
    # encoding=utf-8
    
    # python爬取 http://www.axlcg.com/ 暖享
    import requests
    from bs4 import BeautifulSoup
    import urllib.request
    
    allurl = []
    img = []
    count= 0
    
    #伪装成浏览器
    def download_page(url):
    	return requests.get(url, headers={
    		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3236.0 Safari/537.36'
    	}).content
    
    
    # 爬取所有图集的url,放到一个list里
    def get_all_url():
    	firsturl = "http://www.axlcg.com/wmxz/"
    	pageindex = 0
    	while 1 and pageindex < 20:
    		allurldigit = download_page(firsturl)  # 首页面格式化
    		allsoup = BeautifulSoup(allurldigit)  # 得到解析后的html
    		allpage = allsoup.find('ul', attrs={'class': 'homeboy-ul clearfix line-dot'})
    		allpage2 = allpage.find_all('a')
    		for allpage2index in allpage2:
    			allpage3 = allpage2index['href']
    			if allpage3 not in allurl:
    				allurl.append(allpage3)
    		# 找下一页的url
    		next_page1 = allsoup.find('ul', attrs={'class': 'information-page-ul clearfix'})
    		next_page2 = next_page1.find_all('li')
    		for next_page2_index in next_page2:
    			# print(next_page2)
    			next_page3 = next_page2_index.find('a')
    			# print(next_page3)
    			if next_page3.getText() == "下一页" and next_page3.get("href") != None:
    				firsturl = next_page3.get("href")
    				pageindex = pageindex + 1
    				print("总页面" + firsturl)
    	print(allurl)
    	print(len(allurl))
    
    
    # 对每一个url进行下载图片
    def main():
    	get_all_url();
    	i = 91
    	pagecount = 0;  # 最多八页
    	index = 0
    
    
    	url = download_page(allurl[i])
    	soup = BeautifulSoup(url)
    	i = i + 1
    	while index < 1000 and i < len(allurl):
    		# print(allpage)
    		# print(soup)
    		page0 = soup.find("div", attrs={'class': 'slideBox-detail'})
    		# print(page0)
    		page = page0.find_all("li")
    		# print(page)
    		for pageindex in page:
    			page2 = pageindex.find("img");
    			# print(page2)
    			img.append(page2['src'])
    
    		next = soup.find('ul', attrs={'class': 'information-page-ul clearfix'})
    		next2 = next.find_all('li')
    		for next_url in next2:
    			# print(next_url)
    			next_page = next_url.find("a")
    			if (pagecount < 7 and next_page.getText() == "下一页" and next_page != None and next_page.get("href") != None):
    				# print(next_page.get("href"))
    				url = next_page.get('href')
    				pagecount = pagecount + 1
    				url = download_page(url)
    				soup = BeautifulSoup(url)
    				break;
    			elif (pagecount >= 7):
    				url = download_page(allurl[i])
    				soup = BeautifulSoup(url)
    				pagecount = 0
    				print(len(img))
    				download()
    				print("新的页面" + allurl[i])
    
    				i = i + 1
    				break
    def download():
    	#print(len(img))
    	global img,count
    	print("开始下载图片")
    	for m in img:
    		urllib.request.urlretrieve(m, "D:/Desktop//632/" + str(count) + ".jpg")
    		count = count+1
    		print("正在下载第"+str(count)+"张")
    	img = []
    	print("下载完毕")
    
    if __name__ == '__main__':
    	main()
    	#download();
    
    
posted @ 2018-01-15 19:03  云胡同学  阅读(118)  评论(0编辑  收藏  举报