爬虫详解
Python 如何访问互联网?
我们可以通过Python自带的urllib来访问互联网. urllib=url+lib
其中URL就是我们常说的 网页地址(http://www.baidu.com) .
url 的一般格式 是
protocol://hostname[:port]/path/[;parhmenters][?query]#fagment
url 有三部分组成 .
-第一部分 : http,https,ftp,file(访问本地文件.),ed2k...
-第二部分 : 存放资源的服务器域名系统或者ip地址(有事需要包括端口号,各种传输协议都有默认的端口号,如http的默认端口为80) , 中括号内的是可选的端口 , http的默认端口是 80 如果 没有写的话 , 会自动默认 80 如果写上其他的 就会出现这样的情况 .
-第三部分 : 资源的具体地址如目录或者文件名
1 import urllib.request 2 import time 3 response=urllib.request.urlopen("http://www.fishc.com/") 4 html=response.read() 5 html=html.decode('utf-8') 6 print(html) 7 time.sleep(20)