最简单的百度贴吧爬虫

--之心

爬虫有四个步骤：
                            1.明确目标
                            2.爬
                            3.取（去掉没用的数据）
                            4.处理数据
主要代码如下：

import urllib2

def  load_page(url):
    '''发送url请求返回url请求的静态html页面'''
    user_agent =" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36;"
    headers = {"User-Agent": user_agent}
    req = urllib2.Request(url, headers=headers)
    response = urllib2.urlopen(req)
    html = response.read()
    return html

def  write_to_file(file_name,txt):
    '''将txt文本存入到file_name文件中'''
    print  u'正在存储文件'+file_name
    #  1打开文件
    f=open(file_name,'w')
    #  2读写文件
    f.write(txt)
    #  3关闭文件
    f.close()

def  Tieba_Spider(url,Begin_Page,End_Page):
    '''贴吧小爬虫方法'''
    for  i  in  range(Begin_Page,End_Page+1):
        #  i=1 ,pn=0
        #  i=2,pn=100
        #  i=3,pn=150
        #  pn=50*(i-1)
        pn=50*(i-1)
        #组成完整的URL
        my_url=url+str(pn)
        print "请求地址："
        print  my_url
        html = load_page(my_url)
        print  "=========第%d页=========" %(i)
        print html
        print  "====================="
        file_name=str(i)+".html"
        write_to_file(file_name,html)

url="https://"+raw_input("请输入贴吧的URL地址：")
#print  url
Begin_Page=int(raw_input("请输入起始页码："))
End_Page=int(raw_input("请输入终止页码："))
#print  Begin_Page
#print  End_Page
Tieba_Spider(url,Begin_Page,End_Page)

posted on 2017-12-11 19:45 之心阅读(413) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

最简单的百度贴吧爬虫

导航

公告