一个小小的百度贴吧爬虫(Python)

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">整个爬虫十分的简单。</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">但是我再写他的过程中,可能是由于我看基础的时候不太仔细,再raw_input()括号里面没有加入(u'string')...导致乱码。</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">在看了一下午的python之后,终于开始写爬虫了。</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">我这次写的爬虫很简单。</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">下载百度贴吧指定页数的HTML。</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">废话不多说,让我们开始吧。主要的模块只有一个 urllib2</span>
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"></span><pre name="code" class="python">import string,urllib2

def a(url,bgp,ep):
    for i in range(bgp,ep):
        sName = string.zfill(i,5)+'.html' #自动补全为五位0000X的html文件名
        print('downloading the'+str(i)+'page')
        f = open(sName,'w+')
        m = urllib2.urlopen(url+str(i)).read()
        f.write(m)
        f.close
        

burl = str(raw_input(u'请输入百度贴吧地址,去掉页数\n'))
bgp1 = int(raw_input(u'请输入开始页数'))
ep1 = int(raw_input(u'请输入结束页数'))

a(burl,bgp1,ep1)


posted @ 2015-02-10 15:22  verain  阅读(192)  评论(0编辑  收藏  举报