再续session和cookie (网络整理)
摘要:虽然session机制在web应用程序中被采用已经很长时间了,但是仍然有很多人不清楚session机制的本质,以至不能正确的应用这一技术。本文将详细讨论session的工作机制并且对在Java web application中应用session机制时常见的问题作出解答。
目录:
一、术语session
二、HTTP协议与状态保持
三、理解cookie机制
四、理解session机制
五、理解javax.servlet.http.HttpSession
六、HttpSession常见问题
七、跨应用程序的session共享
八、总结
参考文档
一、术语session
在我的经验里,session这个词被滥用的程度大概仅次于transaction,更加有趣的是transaction与session在某些语境下的含义是相同的。
session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个 session。有时候我们可以看到这样的话“在一个浏览器会话期间,...”,这里的会话一词用的就是其本义,是指从一个浏览器窗口打开到关闭这个期间 ①。最混乱的是“用户(客户端)在一次会话期间”这样一句话,它可能指用户的一系列动作(一般情况下是同某个具体目的相关的一系列动作,比如从登录到选购商品到结账登出这样一个网上购物的过程,有时候也被称为一个transaction),然而有时候也可能仅仅是指一次连接,也有可能是指含义①,其中的差别只能靠上下文来推断②。
然而当session一词与网络协议相关联时,它又往往隐含了“面向连接”和/或“保持状态”这样两个含义, “面向连接”指的是在通信双方在通信之前要先建立一个通信的渠道,比如打电话,直到对方接了电话通信才能开始,与此相对的是写信,在你把信发出去的时候你并不能确认对方的地址是否正确,通信渠道不一定能建立,但对发信人来说,通信已经开始了。“保持状态”则是指通信的一方能够把一系列的消息关联起来,使得消息之间可以互相依赖,比如一个服务员能够认出再次光临的老顾客并且记得上次这个顾客还欠店里一块钱。这一类的例子有“一个TCP session”或者 “一个POP3 session”③。
而到了web服务器蓬勃发展的时代,session在web开发语境下的语义又有了新的扩展,它的含义是指一类用来在客户端与服务器之间保持状态的解决方案④。有时候session也用来指这种解决方案的存储结构,如“把xxx保存在session 里”⑤。由于各种用于web开发的语言在一定程度上都提供了对这种解决方案的支持,所以在某种特定语言的语境下,session也被用来指代该语言的解决方案,比如经常把Java里提供的javax.servlet.http.HttpSession简称为session⑥。
鉴于这种混乱已不可改变,本文中session一词的运用也会根据上下文有不同的含义,请大家注意分辨。
在本文中,使用中文“浏览器会话期间”来表达含义①,使用“session机制”来表达含义④,使用“session”表达含义⑤,使用具体的“HttpSession”来表达含义⑥
二、HTTP协议与状态保持
HTTP 协议本身是无状态的,这与HTTP协议本来的目的是相符的,客户端只需要简单的向服务器请求下载某些文件,无论是客户端还是服务器都没有必要纪录彼此过去的行为,每一次请求之间都是独立的,好比一个顾客和一个自动售货机或者一个普通的(非会员制)大卖场之间的关系一样。
然而聪明(或者贪心?)的人们很快发现如果能够提供一些按需生成的动态信息会使web变得更加有用,就像给有线电视加上点播功能一样。这种需求一方面迫使HTML逐步添加了表单、脚本、DOM等客户端行为,另一方面在服务器端则出现了CGI规范以响应客户端的动态请求,作为传输载体的HTTP协议也添加了文件上载、 cookie这些特性。其中cookie的作用就是为了解决HTTP协议无状态的缺陷所作出的努力。至于后来出现的session机制则是又一种在客户端与服务器之间保持状态的解决方案。
让我们用几个例子来描述一下cookie和session机制之间的区别与联系。笔者曾经常去的一家咖啡店有喝5杯咖啡免费赠一杯咖啡的优惠,然而一次性消费5杯咖啡的机会微乎其微,这时就需要某种方式来纪录某位顾客的消费数量。想象一下其实也无外乎下面的几种方案:
1、该店的店员很厉害,能记住每位顾客的消费数量,只要顾客一走进咖啡店,店员就知道该怎么对待了。这种做法就是协议本身支持状态。
2、发给顾客一张卡片,上面记录着消费的数量,一般还有个有效期限。每次消费时,如果顾客出示这张卡片,则此次消费就会与以前或以后的消费相联系起来。这种做法就是在客户端保持状态。
3、发给顾客一张会员卡,除了卡号之外什么信息也不纪录,每次消费时,如果顾客出示该卡片,则店员在店里的纪录本上找到这个卡号对应的纪录添加一些消费信息。这种做法就是在服务器端保持状态。
由于HTTP协议是无状态的,而出于种种考虑也不希望使之成为有状态的,因此,后面两种方案就成为现实的选择。具体来说cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保持状态的方案。同时我们也看到,由于采用服务器端保持状态的方案在客户端也需要保存一个标识,所以session机制可能需要借助于cookie机制来达到保存标识的目的,但实际上它还有其他选择。
三、理解cookie机制
cookie机制的基本原理就如上面的例子一样简单,但是还有几个问题需要解决:“会员卡”如何分发;“会员卡”的内容;以及客户如何使用“会员卡”。
正统的cookie分发是通过扩展HTTP协议来实现的,服务器通过在HTTP的响应头中加上一行特殊的指示以提示浏览器按照指示生成相应的cookie。然而纯粹的客户端脚本如JavaScript或者VBScript也可以生成cookie。
而cookie 的使用是由浏览器按照一定的原则在后台自动发送给服务器的。浏览器检查所有存储的cookie,如果某个cookie所声明的作用范围大于等于将要请求的资源所在的位置,则把该cookie附在请求资源的HTTP请求头上发送给服务器。意思是麦当劳的会员卡只能在麦当劳的店里出示,如果某家分店还发行了自己的会员卡,那么进这家店的时候除了要出示麦当劳的会员卡,还要出示这家店的会员卡。
cookie的内容主要包括:名字,值,过期时间,路径和域。
其中域可以指定某一个域比如.google.com,相当于总店招牌,比如宝洁公司,也可以指定一个域下的具体某台机器比如www.google.com或者froogle.google.com,可以用飘柔来做比。
路径就是跟在域名后面的URL路径,比如/或者/foo等等,可以用某飘柔专柜做比。
路径与域合在一起就构成了cookie的作用范围。
如果不设置过期时间,则表示这个cookie的生命期为浏览器会话期间,只要关闭浏览器窗口,cookie就消失了。这种生命期为浏览器会话期的 cookie被称为会话cookie。会话cookie一般不存储在硬盘上而是保存在内存里,当然这种行为并不是规范规定的。如果设置了过期时间,浏览器就会把cookie保存到硬盘上,关闭后再次打开浏览器,这些cookie仍然有效直到超过设定的过期时间。
存储在硬盘上的cookie 可以在不同的浏览器进程间共享,比如两个IE窗口。而对于保存在内存里的cookie,不同的浏览器有不同的处理方式。对于IE,在一个打开的窗口上按 Ctrl-N(或者从文件菜单)打开的窗口可以与原窗口共享,而使用其他方式新开的IE进程则不能共享已经打开的窗口的内存cookie;对于 Mozilla Firefox0.8,所有的进程和标签页都可以共享同样的cookie。一般来说是用javascript的window.open打开的窗口会与原窗口共享内存cookie。浏览器对于会话cookie的这种只认cookie不认人的处理方式经常给采用session机制的web应用程序开发者造成很大的困扰。
下面就是一个goolge设置cookie的响应头的例子
HTTP/1.1 302 Found
Location: http://www.google.com/intl/zh-CN/
Set-Cookie: PREF=ID=0565f77e132de138:NW=1:TM=1098082649:LM=1098082649:
S=KaeaCFPo49RiA_d8; expires=Sun, 17-Jan-2038 19:14:07 GMT; path=/; domain=.google.com
Content-Type: text/html
这是使用HTTPLook这个HTTP Sniffer软件来俘获的HTTP通讯纪录的一部分
浏览器在再次访问goolge的资源时自动向外发送cookie
使用Firefox可以很容易的观察现有的cookie的值
使用HTTPLook配合Firefox可以很容易的理解cookie的工作原理。
IE也可以设置在接受cookie前询问
这是一个询问接受cookie的对话框。
四、理解session机制
session机制是一种服务器端的机制,服务器使用一种类似于散列表的结构(也可能就是使用散列表)来保存信息。
当程序需要为某个客户端的请求创建一个session的时候,服务器首先检查这个客户端的请求里是否已包含了一个session标识 - 称为 session id,如果已包含一个session id则说明以前已经为此客户端创建过session,服务器就按照session id把这个 session检索出来使用(如果检索不到,可能会新建一个),如果客户端请求不包含session id,则为此客户端创建一个session并且生成一个与此session相关联的session id,session id的值应该是一个既不会重复,又不容易被找到规律以仿造的字符串,这个 session id将被在本次响应中返回给客户端保存。
保存这个session id的方式可以采用cookie,这样在交互过程中浏览器可以自动的按照规则把这个标识发挥给服务器。一般这个cookie的名字都是类似于SEEESIONID,而。比如weblogic对于web应用程序生成的cookie,JSESSIONID= ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764,它的名字就是 JSESSIONID。
由于cookie可以被人为的禁止,必须有其他机制以便在cookie被禁止时仍然能够把session id传递回服务器。经常被使用的一种技术叫做URL重写,就是把session id直接附加在URL路径的后面,附加方式也有两种,一种是作为URL路径的附加信息,表现形式为http://...../xxx;jsessionid=
ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
另一种是作为查询字符串附加在URL后面,表现形式为http://...../xxx?jsessionid=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
这两种方式对于用户来说是没有区别的,只是服务器在解析的时候处理的方式不同,采用第一种方式也有利于把session id的信息和正常程序参数区分开来。
为了在整个交互过程中始终保持状态,就必须在每个客户端可能请求的路径后面都包含这个session id。
另一种技术叫做表单隐藏字段。就是服务器会自动修改表单,添加一个隐藏字段,以便在表单提交时能够把session id传递回服务器。比如下面的表单
<form name="testform" action="/xxx">
<input type="text">
</form>
在被传递给客户端之前将被改写成
<form name="testform" action="/xxx">
<input type="hidden" name="jsessionid"
value="ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764">
<input type="text">
</form>
这种技术现在已较少应用,笔者接触过的很古老的iPlanet6(SunONE应用服务器的前身)就使用了这种技术。
实际上这种技术可以简单的用对action应用URL重写来代替。
在谈论session机制的时候,常常听到这样一种误解“只要关闭浏览器,session就消失了”。其实可以想象一下会员卡的例子,除非顾客主动对店家提出销卡,否则店家绝对不会轻易删除顾客的资料。对session来说也是一样的,除非程序通知服务器删除一个session,否则服务器会一直保留,程序一般都是在用户做log off的时候发个指令去删除session。然而浏览器从来不会主动在关闭之前通知服务器它将要关闭,因此服务器根本不会有机会知道浏览器已经关闭,之所以会有这种错觉,是大部分session机制都使用会话cookie来保存session id,而关闭浏览器后这个 session id就消失了,再次连接服务器时也就无法找到原来的session。如果服务器设置的cookie被保存到硬盘上,或者使用某种手段改写浏览器发出的HTTP请求头,把原来的session id发送给服务器,则再次打开浏览器仍然能够找到原来的session。
恰恰是由于关闭浏览器不会导致session被删除,迫使服务器为seesion设置了一个失效时间,当距离客户端上一次使用session的时间超过这个失效时间时,服务器就可以认为客户端已经停止了活动,才会把session删除以节省存储空间。
五、理解javax.servlet.http.HttpSession
HttpSession是Java平台对session机制的实现规范,因为它仅仅是个接口,具体到每个web应用服务器的提供商,除了对规范支持之外,仍然会有一些规范里没有规定的细微差异。这里我们以BEA的Weblogic Server8.1作为例子来演示。
首先,Weblogic Server提供了一系列的参数来控制它的HttpSession的实现,包括使用cookie的开关选项,使用URL重写的开关选项,session持久化的设置,session失效时间的设置,以及针对cookie的各种设置,比如设置cookie的名字、路径、域, cookie的生存时间等。
一般情况下,session都是存储在内存里,当服务器进程被停止或者重启的时候,内存里的session也会被清空,如果设置了session的持久化特性,服务器就会把session保存到硬盘上,当服务器进程重新启动或这些信息将能够被再次使用, Weblogic Server支持的持久性方式包括文件、数据库、客户端cookie保存和复制。
复制严格说来不算持久化保存,因为session实际上还是保存在内存里,不过同样的信息被复制到各个cluster内的服务器进程中,这样即使某个服务器进程停止工作也仍然可以从其他进程中取得session。
cookie生存时间的设置则会影响浏览器生成的cookie是否是一个会话cookie。默认是使用会话cookie。有兴趣的可以用它来试验我们在第四节里提到的那个误解。
cookie的路径对于web应用程序来说是一个非常重要的选项,Weblogic Server对这个选项的默认处理方式使得它与其他服务器有明显的区别。后面我们会专题讨论。
关于session的设置参考[5] http://e-docs.bea.com/wls/docs70/webapp/weblogic_xml.html#1036869
六、HttpSession常见问题
(在本小节中session的含义为⑤和⑥的混合)
1、session在何时被创建
一个常见的误解是以为session在有客户端访问时就被创建,然而事实是直到某server端程序调用 HttpServletRequest.getSession(true)这样的语句时才被创建,注意如果JSP没有显示的使用 <% @page session="false"%> 关闭session,则JSP文件在编译成Servlet时将会自动加上这样一条语句 HttpSession session = HttpServletRequest.getSession(true);这也是JSP中隐含的 session对象的来历。
由于session会消耗内存资源,因此,如果不打算使用session,应该在所有的JSP中关闭它。
2、session何时被删除
综合前面的讨论,session在下列情况下被删除a.程序调用HttpSession.invalidate();或b.距离上一次收到客户端发送的session id时间间隔超过了session的超时设置;或c.服务器进程被停止(非持久session)
3、如何做到在浏览器关闭时删除session
严格的讲,做不到这一点。可以做一点努力的办法是在所有的客户端页面里使用javascript代码window.oncolose来监视浏览器的关闭动作,然后向服务器发送一个请求来删除session。但是对于浏览器崩溃或者强行杀死进程这些非常规手段仍然无能为力。
4、有个HttpSessionListener是怎么回事
你可以创建这样的listener去监控session的创建和销毁事件,使得在发生这样的事件时你可以做一些相应的工作。注意是session的创建和销毁动作触发listener,而不是相反。类似的与HttpSession有关的listener还有 HttpSessionBindingListener,HttpSessionActivationListener和 HttpSessionAttributeListener。
5、存放在session中的对象必须是可序列化的吗
不是必需的。要求对象可序列化只是为了session能够在集群中被复制或者能够持久保存或者在必要时server能够暂时把session交换出内存。在 Weblogic Server的session中放置一个不可序列化的对象在控制台上会收到一个警告。我所用过的某个iPlanet版本如果 session中有不可序列化的对象,在session销毁时会有一个Exception,很奇怪。
6、如何才能正确的应付客户端禁止cookie的可能性
对所有的URL使用URL重写,包括超链接,form的action,和重定向的URL,具体做法参见[6]
http://e-docs.bea.com/wls/docs70/webapp/sessions.html#100770
7、开两个浏览器窗口访问应用程序会使用同一个session还是不同的session
参见第三小节对cookie的讨论,对session来说是只认id不认人,因此不同的浏览器,不同的窗口打开方式以及不同的cookie存储方式都会对这个问题的答案有影响。
8、如何防止用户打开两个浏览器窗口操作导致的session混乱
这个问题与防止表单多次提交是类似的,可以通过设置客户端的令牌来解决。就是在服务器每次生成一个不同的id返回给客户端,同时保存在session里,客户端提交表单时必须把这个id也返回服务器,程序首先比较返回的id与保存在session里的值是否一致,如果不一致则说明本次操作已经被提交过了。可以参看《J2EE核心模式》关于表示层模式的部分。需要注意的是对于使用javascript window.open打开的窗口,一般不设置这个id,或者使用单独的id,以防主窗口无法操作,建议不要再window.open打开的窗口里做修改操作,这样就可以不用设置。
9、为什么在Weblogic Server中改变session的值后要重新调用一次session.setValue
做这个动作主要是为了在集群环境中提示Weblogic Server session中的值发生了改变,需要向其他服务器进程复制新的session值。
10、为什么session不见了
排除session正常失效的因素之外,服务器本身的可能性应该是微乎其微的,虽然笔者在iPlanet6SP1加若干补丁的Solaris版本上倒也遇到过;浏览器插件的可能性次之,笔者也遇到过3721插件造成的问题;理论上防火墙或者代理服务器在cookie处理上也有可能会出现问题。
出现这一问题的大部分原因都是程序的错误,最常见的就是在一个应用程序中去访问另外一个应用程序。我们在下一节讨论这个问题。
七、跨应用程序的session共享
常常有这样的情况,一个大项目被分割成若干小项目开发,为了能够互不干扰,要求每个小项目作为一个单独的web应用程序开发,可是到了最后突然发现某几个小项目之间需要共享一些信息,或者想使用session来实现SSO(single sign on),在session中保存login的用户信息,最自然的要求是应用程序间能够访问彼此的session。
然而按照Servlet规范,session的作用范围应该仅仅限于当前应用程序下,不同的应用程序之间是不能够互相访问对方的session的。各个应用服务器从实际效果上都遵守了这一规范,但是实现的细节却可能各有不同,因此解决跨应用程序session共享的方法也各不相同。
首先来看一下Tomcat是如何实现web应用程序之间session的隔离的,从 Tomcat设置的cookie路径来看,它对不同的应用程序设置的cookie路径是不同的,这样不同的应用程序所用的session id是不同的,因此即使在同一个浏览器窗口里访问不同的应用程序,发送给服务器的session id也可以是不同的。
根据这个特性,我们可以推测Tomcat中session的内存结构大致如下。
笔者以前用过的iPlanet也采用的是同样的方式,估计SunONE与iPlanet之间不会有太大的差别。对于这种方式的服务器,解决的思路很简单,实际实行起来也不难。要么让所有的应用程序共享一个session id,要么让应用程序能够获得其他应用程序的session id。
iPlanet中有一种很简单的方法来实现共享一个session id,那就是把各个应用程序的cookie路径都设为/(实际上应该是/NASApp,对于应用程序来讲它的作用相当于根)。
<session-info>
<path>/NASApp</path>
</session-info>
需要注意的是,操作共享的session应该遵循一些编程约定,比如在session attribute名字的前面加上应用程序的前缀,使得 setAttribute("name", "neo")变成setAttribute("app1.name", "neo"),以防止命名空间冲突,导致互相覆盖。
在Tomcat中则没有这么方便的选择。在Tomcat版本3上,我们还可以有一些手段来共享session。对于版本4以上的Tomcat,目前笔者尚未发现简单的办法。只能借助于第三方的力量,比如使用文件、数据库、JMS或者客户端cookie,URL参数或者隐藏字段等手段。
我们再看一下Weblogic Server是如何处理session的。
从截屏画面上可以看到Weblogic Server对所有的应用程序设置的cookie的路径都是/,这是不是意味着在Weblogic Server中默认的就可以共享session了呢?然而一个小实验即可证明即使不同的应用程序使用的是同一个session,各个应用程序仍然只能访问自己所设置的那些属性。这说明Weblogic Server中的session的内存结构可能如下
对于这样一种结构,在 session机制本身上来解决session共享的问题应该是不可能的了。除了借助于第三方的力量,比如使用文件、数据库、JMS或者客户端 cookie,URL参数或者隐藏字段等手段,还有一种较为方便的做法,就是把一个应用程序的session放到ServletContext中,这样另外一个应用程序就可以从ServletContext中取得前一个应用程序的引用。示例代码如下,
应用程序A
context.setAttribute("appA", session);
应用程序B
contextA = context.getContext("/appA");
HttpSession sessionA = (HttpSession)contextA.getAttribute("appA");
值得注意的是这种用法不可移植,因为根据ServletContext的JavaDoc,应用服务器可以处于安全的原因对于context.getContext("/appA");返回空值,以上做法在Weblogic Server 8.1中通过。
那么Weblogic Server为什么要把所有的应用程序的cookie路径都设为/呢?原来是为了SSO,凡是共享这个session的应用程序都可以共享认证的信息。一个简单的实验就可以证明这一点,修改首先登录的那个应用程序的描述符weblogic.xml,把cookie路径修改为/appA 访问另外一个应用程序会重新要求登录,即使是反过来,先访问cookie路径为/的应用程序,再访问修改过路径的这个,虽然不再提示登录,但是登录的用户信息也会丢失。注意做这个实验时认证方式应该使用FORM,因为浏览器和web服务器对basic认证方式有其他的处理方式,第二次请求的认证不是通过 session来实现的。具体请参看[7] secion 14.8 Authorization,你可以修改所附的示例程序来做这些试验。
八、总结
session机制本身并不复杂,然而其实现和配置上的灵活性却使得具体情况复杂多变。这也要求我们不能把仅仅某一次的经验或者某一个浏览器,服务器的经验当作普遍适用的经验,而是始终需要具体情况具体分析。
摘要:虽然session机制在web应用程序中被采用已经很长时间了,但是仍然有很多人不清楚session机制的本质,以至不能正确的应用这一技术。本文将详细讨论session的工作机制并且对在Java web application中应用session机制时常见的问题作出解答
虽然大多数网络Cookie使用起来相当简单,但是它们也有自己独特的原理。由于涉及到互联网隐私问题,Cookie从2000年就开始受到广大媒体的关注,直到现在仍存在着激烈的争论。
然而,Cookie提供了使Web更加容易导航的能力。几乎每个网站的设计人员都会使用Cookie,因为它们能够提供更好的用户体验,并使得收集有关网站访问者的准确信息变得非常容易。
在本文中,我们将了解Cookie背后的基本技术及其支持的一些功能。
Cookie基本知识
2000年4月,笔者在一家颇有规模和影响力的报纸上阅读了一篇有关深入探讨互联网隐私的文章,文中对Cookie进行了定义。定义大致是这样的:
- Cookie是网站放置在硬盘上的程序。它们驻留在计算机上,用于收集有关您和您在互联网上执行的任何操作的信息,只要网站需要,就可以下载此Cookie收集的所有信息。
类似这样的定义在新闻报道中相当普遍,而问题在于所有这些信息都是错误的。Cookie不是程序,不能像运行程序一样运行。因此,Cookie自己不能收集任何信息,也不能从您的计算机上收集与您有关的任何个人信息。
下面是Cookie的正确定义:Cookie是指Web服务器可以在用户的硬盘上存储的一段文本。Cookie允许网站将信息存储在用户的计算机上,并在以后检索此信息。这些信息以名称/值对的形式存储。
例如,网站可以为每个访问者生成唯一的ID号,并使用Cookie文件将此ID号存储在每个用户的计算机上。
如果使用微软的IE浏览器来浏览页面,则可以看到存储在计算机上的所有Cookie。它们通常驻留在名为c:windowscookies的目录中。当笔者在计算机上查看该目录时,发现了165个文件,每个文件都是一个包含名称/值对的文本文件,并且笔者的计算机上存储了与每个网站相对应的一个文件。
您可以看到这个目录中的每一个文件都是简单的普通文本文件,通过查看文件名可以看出是哪个网站将该文件存储到您的计算机上(这些信息也存储在文件中)。通过单击每一个文件,可以将其打开。
例如,笔者访问过goto.com,该网站已将一个Cookie放置在笔者的计算机上。goto.com对应的Cookie文件包含以下信息:
UserID A9A3BECE0563982D www.goto.com/
Goto.com已在笔者的计算机上存储了一个名称/值对。此名称/值对的名称为UserID,值为A9A3BECE0563982D。当笔者第一次访问goto.com时,该网站为笔者分配了一个唯一的ID值,并将其存储在笔者的计算机上。
(请注意,在上面显示的三个值之后,可能还有一些其他的值存储在文件中。这些值是浏览器的管理信息。)
Amazon.com在笔者的计算机上存储的信息更多一些。当查看Amazon在笔者的计算机上创建的Cookie文件时,发现其中包含以下信息:
session-id-time 954242000 amazon.com/
session-id 002-4135256-7625846 amazon.com/
x-main eKQIfwnxuF7qtmX52x6VWAXh@Ih6Uo5H amazon.com/
ubid-main 077-9263437-9645324 amazon.com/
可以看出,Amazon在笔者的计算机上存储了主用户ID、每个会话的ID以及会话的开始时间(以及一个不知道表示什么的x-main值)。
大多数网站仅在计算机上存储一条信息,即用户ID。但是网站可以根据需要存储许多名称/值对。
名称/值对只是命名的数据段,而不是一个程序,也不能“执行”任何操作。网站只能检索它放置在计算机上的信息,而无法检索其他Cookie文件中的信息,也不能检索计算机上的任何其他信息。
Cookie数据是如何移动的?
如上一节中所述,Cookie数据只是网站存储在您的硬盘上的一个名称/值对。所有Cookie数据都是这样。网站存储此数据,并在以后接收此数据。一个网站只能接收其存储在计算机上的数据,该网站不能查看任何其他Cookie或计算机上的任何其他内容。
数据将按以下方式移动:
- 如果在浏览器中键入一个网站的URL,则浏览器会向该网站发送相关网页的请求(有关讨论,请参阅Web服务器工作原理)。例如,如果在浏览器中键入URLhttp://www.amazon.com,则浏览器将联系Amazon的服务器并请求其主页。
- 当浏览器执行上述操作时,它会在您的计算机上寻找Amazon设置的Cookie文件。如果找到Amazon Cookie文件,浏览器就会将该文件中的所有名称/值对连同URL一起发送给Amazon的服务器。如果未找到任何Cookie文件,则不会发送任何Cookie数据。
- Amazon的Web服务器将接收Cookie数据和页面请求。如果接收到名称/值对,Amazon就可以使用它们。
- 如果未接收到任何名称/值对,Amazon将知道您之前从未访问过该网站。服务器将在Amazon的数据库中为您创建一个新ID,然后将名称/值对放置在它发送的网页的标头中,从而发送到您的计算机上。计算机将名称/值对存储在硬盘上。
- 每当您访问网站并请求页面时,Web服务器可以更改名称/值对或添加新对。
服务器还可以将其他一些信息连同名称/值对一起发送,这些信息中包括到期日期。另一个信息是路径(以便网站可以将不同的Cookie值与网站的不同部分相关联)。
您可以控制整个过程。在浏览器中设置一个选项,以便每当网站向您发送名称/值对时,浏览器都会通知您。之后,您便可以接受或拒绝这些值。
网站是如何使用Cookie的?
Cookie由于为使用网站的人解决了一个大问题而逐渐发展起来。从广义上说,Cookie允许网站在计算机上存储状态信息,这些信息可让网站记住浏览器所处的状态。ID是一条简单的状态信息——如果计算机上存在某个ID,则相应网站就会知道您之前已访问过该网站。这个状态表明“您的浏览器至少已访问该网站一次”,并且该网站可以通过那次访问记住您的ID。
网站可以按照许多不同的方式使用Cookie。以下是一些最常见的示例:
- 网站可以准确确定网站的实际访问人数。研究表明,由于存在代理服务器、缓存、集中器等,网站用来准确计算访问者数量的唯一方法就是为每个访问者设置一个包含唯一ID的Cookie。通过使用Cookie,网站可以确定:
- 访问者人数
- 新访问者和重复访问者的人数对比
- 访问者的访问频率
网站通过使用数据库来完成此任务。当访问者第一次访问网站时,网站会在数据库中创建一个新ID,并将此ID作为Cookie发送。当用户下一次返回网站时,网站会在数据库中将与此ID相关的计数器递增,从而知道访问者的返回次数。
- 网站可以存储用户首选项,以便使此网站的外观对于每一个访问者都可以是不同的(通常称作自定义)。例如,如果您访问msn.com,该网站会为您提供“更改内容/布局/颜色”的功能,还允许输入您所在地区的邮政编码来获取自定义的天气信息。当您输入邮政编码时,下面的名称/值对就会添加到MSN的Cookie文件中:
WEAT CC=NC%5FRaleigh%2DDurhamandREGION= www.msn.com/
由于笔者居住在北卡罗来纳州罗利市,这样的天气预报才有意义。
大多数网站似乎都会将类似这样的首选项存储在网站的数据库中,并仅将ID存储为Cookie。不过,将实际值存储在名称/值对中是另一种实现方式(稍后我们将讨论此方法不受欢迎的原因)。
- 电子商务网站可以实现购物车和“快速结帐”选项这样的功能。Cookie包含一个ID并可让网站跟踪您向购物车中添加的不同商品。您添加到购物车中的每个商品会与您的ID值一起存储在网站的数据库中。当您结帐时,网站通过从数据库检索您的所有选择,就可以知道购物车中的商品。在不使用Cookie或类似对象的情况下,人们很难实现方便的购物机制。
在所有这些示例中,请注意,数据库可以存储您从网站选择的商品、您从网站查看的页面以及您通过在线表单提供给网站的信息等,所有信息都存储在网站的数据库中。在大多数情况下,存储在计算机上的全部内容只是一个包含您的独特ID的Cookie。
Cookie存在的问题
Cookie使许多原本不可能的事情变为了可能,但它还不是一种完善的状态机制。例如,Cookie在以下一些方面还不够完善。
- 人们经常共享计算机——在公共场所使用的任何计算机以及在办公环境或家中使用的许多计算机都可以由多个人共享。假设您使用公共计算机(例如在图书馆中)从网上商店买东西,商店会在计算机上留下一个Cookie,这样便导致其他人稍后可能会试图使用您的帐户从商店买东西。商店之所以通常会发布有关此问题的大量警告,原因就在于此。然而即使如此,还是会有错误发生。例如,笔者曾经使用笔者妻子的计算机从亚马逊网站(Amazon) 买东西,后来,当她访问亚马逊网站并单击“一键通”按钮时,并没有意识到只是这么单击一下就实际上购买了一本书。
在恰当地使用了帐户的Windows NT计算机或UNIX计算机的系统上,则不会出现这类问题。帐户可以将所有用户的Cookie分开。然而帐户在其他操作系统上太过随意,这是个问题。
如果您在公共计算机上尝试按照上面的例子做,并且使用该计算机的其他人已访问过博闻网,则历史记录URL可能会显示一个长长的文件列表。
- 清除Cookie——如果您的浏览器出了问题并致电技术支持人员,技术支持人员可能会首先要求您清除计算机上所有的临时网络文件。执行此操作后,您会丢失所有的Cookie文件。这时当您再次访问某个网站,该网站会认为您是一个新用户,并会为您分配一个新的Cookie。这往往会在识别新访问者还是回访者方面造成网站记录错误,同时也会让您难以恢复以前存储的首选项。这就是网站在某些情况下要求您注册的原因——如果您使用用户名和密码进行注册,则可以登录并恢复首选项,即使您丢失Cookie文件也没有关系。如果将首选项的值直接存储在计算机上(如上述MSN天气示例),则无法进行恢复。这就是现在许多网站将所有用户信息存储在一个中央数据库中,而仅将一个ID值存储在用户的计算机上的原因。
如果您清除对应于博闻网的Cookie文件,然后重新访问上一节中的历史记录URL,则会发现博闻网没有您的历史记录。网站必须为您创建一个新的ID和Cookie文件,新的ID没有任何相关数据存储在数据库中。
- 多台计算机——多台计算机——人们经常会在一天内使用多台计算机。例如,笔者在办公室和家中各有一台计算机,还有一台在旅途中使用的便携式计算机。除非网站经过了特别设计来解决这一问题,否则笔者这三台计算机上会有三个不同的Cookie文件。通过这三台计算机访问的任何网站都会将笔者视为三个不同的用户进行跟踪,设置三次首选项会有些烦人。不过,允许注册并集中存储首选项的网站可使笔者在三台计算机上轻松拥有同一帐户,但是网站开发人员必须在设计网站时做好相应的规划。
如果您从一台计算机上访问上一节中演示的历史记录URL,然后从另一台计算机上再次尝试相同的操作,则会发现您的历史记录列表是不同的。这是因为服务器为您创建了两个ID,一个ID对应于一台计算机。
总的来讲,除了要求用户进行注册并在中央数据库中存储所有信息之外,可能没有任何其他简单的解决方案来解决这些问题。
当您使用博闻网注册系统进行注册时,可以通过以下方式解决此问题:网站会记住您的Cookie值,并将其与您的注册信息存储在一起。如果您有机会从任何其他计算机(或已丢失Cookie文件的计算机)登录,则服务器将修改该计算机上的Cookie文件以包含与您的注册信息相关的ID。这样,多台计算机上就可以使用的相同ID值了。
关于Cookie的争议
读到这里时,您可能很想知道为什么媒体一直以来会对Cookie和网络隐私存在这些争议。从上文中,您已了解到Cookie都是善意的文本文件,并且知道它们提供了大量有用的Web功能。
然而有两个方面的问题引起了有关Cookie的强烈争议:
- 第一个方面的问题已困扰消费者长达数十年。假设您通过传统的邮购目录购买东西,目录公司可以从订单中获取您的姓名、地址和电话号码,并且也知道您购买的商品。该公司可以将您的信息出售给可能希望向您销售类似产品的其他公司,这就是促成电话营销和垃圾邮件的来源。
在一个网站上,网站不但可以跟踪您购买的商品,还可以跟踪您阅读的网页和单击的广告等。如果您稍后购买物品并输入您的姓名和地址,则网站可能会比传统的邮购公司知道更多有关您的信息。这样可以更加精确地寻找目标,但会给很多人带来不便。
不同的网站具有不同的策略。博闻网具有严格的隐私策略,并且不会向任何第三方出售或与之共享有关我们的读者的任何个人信息,除非您特地告诉我们这样做(例如,决定参加一个电子邮件计划中)。我们会聚合信息并进行发布,例如,如果记者询问博闻网有多少访问者或网站上的哪一个页面最受欢迎,我们会根据数据库中的数据来创建这些聚合统计信息。
- 第二个方面的问题是互联网特有的。有一些基础设施提供商实际上可以创建在多个网站上可见的Cookie,DoubleClick就是这方面最出名的例子。许多公司使用DoubleClick在其网站上提供广告横幅服务。DoubleClick会在网站上放置一些小型(1x1像素GIF文件,以方便DoubleClick在您的计算机上加载Cookie,这样它就可以跨多个网站跟踪您的活动。它可能会查看到您在搜索引擎中键入的搜索字符串(这更多的是缘于一些搜索引擎实现其系统的方式,而不是因为要有意进行任何恶意操作)。由于它可以从多个网站收集有关您的如此多的信息,因此DoubleClick可以制作内容非常丰富的配置文件,当然这些配置文件仍是匿名的
随后,DoubleClick又向前迈进了一步。通过收购一家公司,DoubleClick扬言将这些内容丰富的匿名配置文件与姓名和地址信息重新链接在一起,标明这些信息的所有者并进行出售。如此一来,这种做法开始让人觉得非常像是在窥探用户的隐私,这也正是引起争议的原因。
DoubleClick以及诸如此类的公司在做此类事情时处于一个独特的位置——因为它们为如此多的网站提供广告服务。由于Cookie因网站而异,所以跨网站配置的功能并不适用于单个网站。