最简单的百度贴吧爬虫

最简单的百度贴吧爬虫

--之心

爬虫有四个步骤:
1.明确目标
2.爬
3.取(去掉没用的数据)
4.处理数据
主要代码如下:

import urllib2

def load_page(url):
'''发送url请求返回url请求的静态html页面'''
user_agent =" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36;"
headers = {"User-Agent": user_agent}
req = urllib2.Request(url, headers=headers)
response = urllib2.urlopen(req)
html = response.read()
return html

def write_to_file(file_name,txt):
'''将txt文本存入到file_name文件中'''
print u'正在存储文件'+file_name
# 1打开文件
f=open(file_name,'w')
# 2读写文件
f.write(txt)
# 3关闭文件
f.close()

def Tieba_Spider(url,Begin_Page,End_Page):
'''贴吧小爬虫方法'''
for i in range(Begin_Page,End_Page+1):
# i=1 ,pn=0
# i=2,pn=100
# i=3,pn=150
# pn=50*(i-1)
pn=50*(i-1)
#组成完整的URL
my_url=url+str(pn)
print "请求地址:"
print my_url
html = load_page(my_url)
print "=========第%d页=========" %(i)
print html
print "====================="
file_name=str(i)+".html"
write_to_file(file_name,html)

url="https://"+raw_input("请输入贴吧的URL地址:")
#print url
Begin_Page=int(raw_input("请输入起始页码:"))
End_Page=int(raw_input("请输入终止页码:"))
#print Begin_Page
#print End_Page
Tieba_Spider(url,Begin_Page,End_Page)



posted on 2017-12-11 19:45  之心  阅读(413)  评论(0编辑  收藏  举报

导航