网络爬虫学习----(1)
URI(Universal Resource Identifier)
什么是URI?Web上的每种可用的资源,如Html文档、图像、视频片段、程序等都是由一个通用的资源标识符(Universal Resource Identifier,URI)进行定位。
URI通常是由三部分组成:1.访问资源的命名机制;2.存放资源的主机名;3.资源自身的名称,有路径表示。
如:http://baike.baidu.com/view。我们可以这样理解:我们通过HTTP协议访问资源,主机是http://baike.baidu.com,路径是/viev/。
URL(Uniform Resource Locator)
URL是URI的一个子集。是Uniform Resource Locator 的缩写,称为“同意资源定位符”。一般来说,URL是Internet上描述信息资源的字符串,主要用在各种www客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。
URL的格式有三部分组成:1.协议;2.存在有该资源的主机IP地址(有时候包括端口号);3.主机资源的具体地址,如文件名或目录。
第一部分和第二部分用“://”隔开,第二部分和第三部分用”/“来隔开,第一、二部分不能缺少,第三部分有事可以缺省。
例如:http://baike.baidu.com/view/284853.htm。计算机的域名为http://baike.baidu.com。超级文本文件在目录/view下的284853.htm。
文件的URL
用URL表示文件时,服务器用file表示,后面要有主句的IP地址、文件的存放路径和文件的名称等信息。有事尅省略目录和文件名。
例: file://ftp.yoyodyne.com/pub/files/foobar.txt
上面这个 URL 代表存放 在 主机 ftp.yoyodyne.com 上的 pub/files/ 目录下的一个文件,文件名是 foobar.txt 。
爬虫最主要的处理对象就是URL,他根据URL地址获得所需要的文件内容,然后对它进一步的处理。