Http协议-URI和资源
所有东西都有一个标准化的名字,以帮助人们寻找城市中的各种资源。书籍有ISBN号,公交车有线路号,银行账户有账户编码,人有身份证,街道有街道名称。人们告诉图书馆管理员书籍的ISBN号,他即可找出该书籍的位置。所有人都对这些名字的标准达成了一致,所以能方便地分享生活中的无尽资源。同样因特网充满无尽资源,一条微博,想与朋友分享时,仅仅将此链接告知对方即可。一条微博是资源,一条链接可快速准确找到此资源。因特网拥有一种机制去唯一标识这些资源!此机制就是URI。URI不仅统一因特网资源的标准化名字,而且标记这些资源的位置。URI的两种表现形式:URL和URI。URL是通过描述资源的位置来标识资源的;而URN则是通过名字来识别。Http协议处理的仅是URL。所以下面主要讲述URL,以URL是什么->URL的组成部分->URL的类型->URL的使用编码流程讲述URL。
URI,URL,URN是什么
URI标识一个资源,URI是抽象的。可以理解URI为Java的接口,定义标识资源的一种行为。URL和URN实现了URI这个接口。URL通过位置来标识资源,而URN通过名字来标识资源。例如乔布斯是URI,它不是URL,因为它不能告诉你任何关于他的位置或如何找到他的信息,而且这个名字在美国可能有很多;美国xxx街xxx号的乔布斯是URL;乔布斯是个名字,但在全世界有很多乔布斯,不能通过此名字标识这个人,故乔布斯不能说是URN,URN严格约束了名字的唯一性,身份证号可认为是URN。
URL的组成部分
前面说到URL可以通过位置来标识资源,那URL如何标识资源?URL的组成部分告诉客户端如何访问资源。它包括三个部分,scheme告知客户端怎样访问资源;host告知客户端资源的位置;path告知客户端位于host的特定的资源。以你去拜访朋友为例,你去朋友家的交通方式是scheme,朋友家为host,朋友为path。URL的通用格式为:<scheme>://[user][:][password][@]<host>:<port>[/][path];[params][?][query][#][frag],<>必须包含,[]可不包含。例如,http://www.cnblogs.com/lijianwen/admin/EditPosts.aspx?postid=22#f,http为scheme;www.cnblogs.com为host;lijianwen/admin/EditPosts.aspx为path;postid=22为query;#f为frag
URL的类型
URL有两种类型:相对URL与绝对URL。绝对URL中包含有访问资源所需的全部信息,例如,http://www.cnblogs.com/lijianwen/admin/EditPosts.aspx;而相对URL是相对于基础URL来补充剩余的信息。例如,EditPosts.aspx,./EditPosts.aspx的基础URL是http://www.cnblogs.com/lijianwen/admin/。
URL的使用
URL要统一因特网所有的资源,需要解决可移植性和安全性问题。可移植性意味着要支持各国语言,安全性意味着不能丢失信息。对URL进行编码很好的解决这两个问题。例如Url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=abc&ie=utf-8。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧义的&和=符号进行转义,也就是对其进行编码。RFC规定,URL只能使用英文字母、阿拉伯数字和某些标点符号($-_.+!*)以及某些保留字(:/?#[]@!$&’()*+,;=)。如果使用其他文字和符号就需编码。但问题是,RFC没有规定具体的编码方法,而是交给客户端(浏览器)自己决定。这导致“URL编码”成为了一个混乱的领域。下面就让我们看看,“URL编码”到底有多混乱。中文Windows环境下,假如直接在浏览器的地址栏输入URL:http://www.charset.cn/中国.html?kw=中国。PATH为中国.html,参数未kw=中国。
- IE中默认发送的URL的PATH部分是UTF-8编码,参数部分是GBK编码
- FireFox中默认发送的URL的PATH和参数都是GBK编码
- Opera中默认发送的URL的PATH和参数都是UTF-8编码
- get/post请求各种浏览器又会有不同的编码方式。
面对如何混乱的领域,就衍生了乱码问题。后续文章会讲述乱码问题。