爬虫

爬虫:
什么是爬虫:
爬虫就是写一个程序,从互联网上抓取数据的过程
Url模块:
1:urlretrieve(url,filename):urlretrieve()模块有两个参数,url = 要爬取的网址
filename = 本地的目录(本地的存储地址)
2:urlcleanup() :将urlretrieve()产生的缓存清除
3:info():将一些基本的环境展现出来(urllib.request.urlopen(url))
此时调用info()可展现当前的环境
4:getcode(),geturl():返回当前网页的状态码,getcode显示当前的状态码,200表示网页正常
403表示网页有错
5:超时设置:由于网速和对方服务器的问题,爬取网页时。都需要时间,
有时间该网页长时间未响应,就判断为超时。file = urllib.request.urlopen('url',timeout = ?)
 
posted @ 2019-05-21 22:47  zx1  阅读(134)  评论(0编辑  收藏  举报