python 采集网页的问题

  我想要采集一些网站的图片,网站的目录是这样的,有一个list页显示了图片页的链接地址,现在我想通过向程序提供该list页的网址,由程序来分析这个网址中某一部分中所有图片页的链接地址,然后把这些图片也得链接地址保存到一个列表中,再逐个打开这些地址,获得每一个图片网页中图片的链接地址,下载这些图片!
  我使用HTMLParser模块来解析网页,但是如果我下载的网页编码是gb2312的话,就会出现错误了,我不知道怎么改变编码再将网页代码传递给HTMLParser才不会出错,求救!!!
  另,这个程序应该是能够通过正则表达式来实现的,可惜我本来要采集的那个网页这几天好像被封了,现在给不了实例,郁闷啊!

Python code

#!/usr/bin/env python # -*- coding:gb2312 -*- """ 要实现的功能是 根据提供的目录网页(list)分析其子页面 将其子页面的链接保存在一个列表中,然后循环下载这些子页面 分析这些子页面中的图片,下载保存到本地硬盘上 """ import os,sys,HTMLParser import urllib,re import httplib,urlparse class main(): def __init__(self): self.anatext = "111222" #保存截取出来的要分析的网页 def run(self): global chdurllist global picurllist global urlstring #先要求提供一个目录页地址: parurl = raw_input("Please in the url of the website:") #判断能否正常链接到该地址: runn = self.httpExists(parurl) #如果地址能够访问,进行解析,提取网页中的子网页地址 if runn == True: from urlparse import urlparse a = urlparse(parurl) urlstring = a[0]+'://'+a[1]+'/' """ 在这里控制整个程序的运行! """ parstartstr = "<DIV class=list>" #list页采集开始处的代码 parendstr = "<DIV class=page>" #list页采集结束处的代码 chdstartstr = "<DIV class=\"center margintop border clear main\">" #图片页采集开始处的代码 chdendstr = "</DIV></A></div>" #图片页采集结束处的代码 self.paranalyze(parurl,parstartstr,parendstr) lar = parselinks() lar.feed(self.anatext)#____问题出现在这里____提供的参数不符合规格! print "1" for url in chdurllist: self.paranalyze(url,chdstartstr,chdendstr) lar.feed(self.anatext) self.downpic() lar.close else: print "The url you input can not link!\nPlease input another url:" def paranalyze(self,url,anastart,anaend): #开始解析网页了!先获取网页内容 webpage = urllib.urlopen(url) webtext = webpage.read() #print len(webtext) #开始解析网页内容 a = webtext.find(anastart) b = webtext.find(anaend) #print webtext[a:b] ab = webtext[a:b] self.anatext = ab.decode("cp936") webpage.close() #开始下载图片urlretrieve def downpic(self): global chdurllist global picurllist fildir = "c:\\123\\dmm\\" a = len(picurllist[1]) filename = picurllist[1][a-4:] i = 10 print '2' if picurllist[0]!=picurllist[1]: print '3' for url in picurllist: if httpExists(url): print '4' i += 1 urllib.urlretrieve(url,fildir+str(i)+filename) else: return False else: return False def httpExists(self,url): host , path = urlparse.urlsplit(url)[1:3] isok = False try: conn = httplib.HTTPConnection(host) conn.request("HEAD",path) resp = conn.getresponse() if resp.status == 200: isok = True else: isok = False except Exception, e: print e.__class__, e, url return isok #提取网页中文字链接的方法 class parselinks(HTMLParser.HTMLParser): def handle_starttag(self,tag,attrs): global chdurllist global picurllist global urlstring if tag == 'a': for name,value in attrs: if name == 'href': #print value chdurllist.append(urlstring+value) if tag == 'img': for name,value in attrs: if name == 'src' : #print value picurllist.append(value) if __name__ == '__main__': chdurllist = [] #保存子页面链接地址的列表 picurllist = [] #保存从子页面获得的图片地址 urlstring = "" """ lParser = parselinks() lParser.feed(urllib.urlopen("http://www.python.org/index.html").read()) lParser.close() """ app = main() app.run()

posted @ 2010-01-08 00:50  真功夫  阅读(1923)  评论(0编辑  收藏  举报