python 采集网页的问题

我想要采集一些网站的图片，网站的目录是这样的，有一个list页显示了图片页的链接地址，现在我想通过向程序提供该list页的网址，由程序来分析这个网址中某一部分中所有图片页的链接地址，然后把这些图片也得链接地址保存到一个列表中，再逐个打开这些地址，获得每一个图片网页中图片的链接地址，下载这些图片！
我使用HTMLParser模块来解析网页，但是如果我下载的网页编码是gb2312的话，就会出现错误了，我不知道怎么改变编码再将网页代码传递给HTMLParser才不会出错，求救！！！
另，这个程序应该是能够通过正则表达式来实现的，可惜我本来要采集的那个网页这几天好像被封了，现在给不了实例，郁闷啊！

Python code


#!/usr/bin/env python
# -*- coding:gb2312 -*-

"""
要实现的功能是 根据提供的目录网页(list)分析其子页面

将其子页面的链接保存在一个列表中，然后循环下载这些子页面

分析这些子页面中的图片，下载保存到本地硬盘上
"""

import os,sys,HTMLParser
import urllib,re
import httplib,urlparse


class main():
    def __init__(self):
        self.anatext = "111222"    #保存截取出来的要分析的网页
        
    def run(self):
        global chdurllist
        global picurllist 
        global urlstring
        #先要求提供一个目录页地址：
        parurl = raw_input("Please in the url of the website:")
        #判断能否正常链接到该地址：
        runn = self.httpExists(parurl)
        #如果地址能够访问，进行解析，提取网页中的子网页地址
        if runn == True:
            from urlparse import urlparse
            a = urlparse(parurl)
            urlstring = a[0]+'://'+a[1]+'/'
            
            """
            在这里控制整个程序的运行！
            """
            parstartstr = "<DIV class=list>"   #list页采集开始处的代码
            parendstr = "<DIV class=page>"     #list页采集结束处的代码

            chdstartstr = "<DIV class=\"center margintop border clear main\">"  #图片页采集开始处的代码
            chdendstr = "</DIV></A></div>"                                      #图片页采集结束处的代码

            self.paranalyze(parurl,parstartstr,parendstr)
                        
            lar = parselinks()
            
            lar.feed(self.anatext)#____问题出现在这里____提供的参数不符合规格！
            
            print "1"
            
            for url in chdurllist:
                self.paranalyze(url,chdstartstr,chdendstr)
                lar.feed(self.anatext)
                self.downpic()
                
            lar.close
                

            
        else:
            print "The url you input can not link!\nPlease input another url:"
        
    def paranalyze(self,url,anastart,anaend):
        #开始解析网页了！先获取网页内容
        webpage = urllib.urlopen(url)
        webtext = webpage.read()
        #print len(webtext)
        #开始解析网页内容
        a = webtext.find(anastart)
        b = webtext.find(anaend)
        #print webtext[a:b]
        ab = webtext[a:b]
        self.anatext = ab.decode("cp936")
        webpage.close()
    
    
    #开始下载图片urlretrieve
    def downpic(self):
        global chdurllist
        global picurllist   
        fildir = "c:\\123\\dmm\\"
        a = len(picurllist[1])
        filename = picurllist[1][a-4:]
        i = 10
        print '2'
        if picurllist[0]!=picurllist[1]:
            print '3'
            for url in picurllist:
                if httpExists(url):
                    print '4'
                    i += 1
                    urllib.urlretrieve(url,fildir+str(i)+filename)
                else:
                    return False
        else:
            return False               
        
    def httpExists(self,url):
        host , path = urlparse.urlsplit(url)[1:3]
        isok = False
        try:
            conn = httplib.HTTPConnection(host)
            conn.request("HEAD",path)
            resp = conn.getresponse()
            
            if resp.status == 200:
                isok = True
            else:
                isok = False
        except Exception, e:
            print e.__class__, e, url
            
        return isok

    #提取网页中文字链接的方法
class parselinks(HTMLParser.HTMLParser):
        
    def handle_starttag(self,tag,attrs):
        global chdurllist
        global picurllist
        global urlstring
        if tag == 'a':
            for name,value in attrs:
                if name == 'href':
                    #print value
                    chdurllist.append(urlstring+value)
                    
            
        if tag == 'img':
            for name,value in attrs:
                if name == 'src' :
                    #print value
                    picurllist.append(value)


    
if __name__ == '__main__':
    chdurllist = [] #保存子页面链接地址的列表
    picurllist = [] #保存从子页面获得的图片地址    
    urlstring = ""
    """ 
    lParser = parselinks()
    lParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
    lParser.close()    
    """
    app = main()
    app.run()

posted @ 2010-01-08 00:50 真功夫阅读(1923) 评论(0) 编辑收藏举报

刷新页面返回顶部

真功夫

python 采集网页的问题

公告