(16)网络爬虫

 

爬取整个静态网页代码,并存入文件。

import  urllib2

response =urllib2.urlopen("http://www.baidu.com")
str=response.read()
#print str
f = open('D:/baidu.txt','w+')
f.write(str)
f.close()

 

urlopen(url,data,timeout)

第一个参数是网址,要带协议(http)

二三参数可选,意思暂时不知道

 

动态的暂时不会。。

加request

import urllib2
 
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

 

urllib.urlretrieve

将远程数据下载到本地

urlretrieve(url, filename=None, reporthook=None, data=None)

参数

url:网址

filename:参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)

reporthook:参数 reporthook 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度

data:参数 data 指 post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,filename 表示保存到本地的路径,header 表示服务器的响应头。

posted @ 2017-07-10 11:02  富坚老贼  阅读(144)  评论(0编辑  收藏  举报