爬虫详解

Python 如何访问互联网?

我们可以通过Python自带的urllib来访问互联网. urllib=url+lib  

其中URL就是我们常说的 网页地址(http://www.baidu.com) . 

url 的一般格式 是

protocol://hostname[:port]/path/[;parhmenters][?query]#fagment

url 有三部分组成 .

-第一部分 : http,https,ftp,file(访问本地文件.),ed2k...

-第二部分 : 存放资源的服务器域名系统或者ip地址(有事需要包括端口号,各种传输协议都有默认的端口号,如http的默认端口为80) , 中括号内的是可选的端口 , http的默认端口是  80  如果 没有写的话 , 会自动默认 80 如果写上其他的 就会出现这样的情况 . 

-第三部分 : 资源的具体地址如目录或者文件名

1 import urllib.request
2 import time
3 response=urllib.request.urlopen("http://www.fishc.com/")
4 html=response.read()
5 html=html.decode('utf-8')
6 print(html)
7 time.sleep(20)

 

posted @ 2016-07-20 10:03  X-POWER  阅读(239)  评论(0编辑  收藏  举报