Squid是什么,Squid工作原理是什么

Squid是什么

　　Squid是一种用来缓冲Internet数据的软件。它是这样实现其功能的，接受来自人们需要下载的目标（object）的请求并适当地处理这些请求。也就是说，如果一个人想下载一web页面，他请求Squid为他取得这个页面。Squid随之连接到远程服务器（比如：http：//squid.nlanr.net/）并向这个页面发出请求。然后，Squid显式地聚集数据到客户端机器，而且同时复制一份。当下一次有人需要同一页面时，Squid可以简单地从磁盘中读到它，那样数据迅即就会传输到客户机上。当前的Squid可以处理 HTTP，FTP，GOPHER，SSL和WAIS等协议。但它不能处理如POP，NNTP，RealAudio以及其它类型的东西。
Squid是一个高性能的代理缓存服务器，Squid支持FTP、gopher和HTTP协议。和一般的代理缓存软件不同，Squid用一个单独的、非模块化的、I/O驱动的进程来处理所有的客户端请求。
Squid 将数据元缓存在内存中，同时也缓存DNS查询的结果，除此之外，它还支持非模块化的DNS查询，对失败的请求进行消极缓存。Squid支持SSL，支持访问控制。由于使用了ICP（轻量Internet缓存协议），Squid能够实现层叠的代理阵列，从而最大限度地节约带宽。
Squid由一个主要的服务程序squid,一个DNS查询程序dnsserver，几个重写请求和执行认证的程序，以及几个管理工具组成。当Squid启动以后，它可以派生出预先指定数目的dnsserver进程，而每一个dnsserver进程都可以执行单独的DNS查询，这样一来就大大减少了服务器等待DNS查询的时间。
　　Internet缓冲的一些概念
　　你可能会想到一些问题：缓冲有多大的用处？什么时候目标（object）应该或者不应该被缓冲？例如，缓冲信用卡号码是完全不适合的，脚本文件的执行结果在远程服务器端，站点经常更新（象www.cnn.com）或者甚至站点不允许缓冲，这些情况也都是不适合缓冲的。
　　Squid处理各种情况是不错的(当然,这需要远程站点按标准形式工作)。
　　可执行的cgi-bin脚本文件不被缓冲，返回正确页眉的页面是在一段限制了的时间内被缓冲，而且你可以规定特殊的规则以确定什么是可以或不可以被缓冲的，还有缓冲的时间为多长。
　　谈到缓冲的用处有多大，这要看Internet的容量大小，各有不同。对于小型的缓冲区（几转磁盘空间）来说，返回值非常高（达到25%）。这个空间缓冲经常访问的站点，如netscape，cnn和其它一些类似情况的站点。如果你增加一倍缓冲的磁盘空间，但你不会成倍增加你的命中率。这是因为你开始缓冲网络中剩余部分时，这些通常时很大的而且很少被访问。一个非常大的高速缓冲区，有20转左右，可能返回值仍小于50%，除非你对保存数据的时间长短经常改变（一般地你不要分配20转的磁盘空间，因为页面很快就会过时，应该被删除掉）。
　　我们在这里说的目标（object）指的是可保存的web页面或其它类似的可下载页面（ftp文件或目录内容也称为目标（object））。
　　Squid运行在什么系统上？
　　Squid可运行在大多数Unix和OS/2版本的系统之上，已知的可工作的有：
　　AIX，Digital Unix，FreeBSD，HP-UX，Irix，Linux，NetBSD，Nextstep，SCO，Solaris

SQUID如何工作
[传统代理]
1.SQUID被绑定到代理服务器的3128端口。
2.客户端浏览器被配置使用代理服务器的3128端口。
3.客户端不需要配置DNS。4.代理服务器上需要配置代理服务器。
5.客户端不需要配置缺省路由。
当我们在客户端浏览器中打开一个web请求，比如“http://www.96333.com”，这时将陆续发生以下事件：
1.客户端使用某一端口（比如1025)连接代理服务器3128端口，请求web页面“http://www.96333.com”
2.代理服务器向DNS请求“www.96333.com”,得到相应的IP地址2.3.4.5。然后，代理服务器使用某一端口（比如1037)向该IP地址的80端口发起web连接请求，请求web页面。
3.收到响应的web页面后，代理服务器把该数据传送给客户端。
4.客户端浏览器显示该页面。
从www.96333.com的角度看来，连接是在1.2.3.4地1037端口和2.3.4.5的80端口之间建立的。
从client的角度看来，连接是在192.168.1.100的1025端口和1.2.3.4的3128端口之间建立的。
[透明代理]
透明代理的意思是客户端根本不需要知道有代理服务器的存在。
在以上基础上我们做以下工作：
1.配置透明代理服务器软件运行在代理服务器的3128端口。
2.配置代理服务器将所有对80端口的连接重定向到3128端口。
3.配置客户端浏览器直接连解到Internet。
4.在客户端配置好DNS.
5.配置客户端的缺省网关为192.168.1.1.
当我们在客户端浏览器中打开一个web请求，比如“http://www.96333.com”，这时将陆续发生以下事件：
1.客户端向DNS请求“www.96333.com”,得到相应的IP地址2.3.4.5。然后，客户端使用某一端口（比如1066)向该IP地址的80端口发起web连接请求，请求web页面。
2.当该请求包通过透明代理服务器时，被防火墙将该数据包重定向到代理服务器的绑定端口3128。于是，透明
代理服务器用某一端口（比如1088)向2.3.4.5的80端口发起web连接请求，请求web页面。
3.收到响应的web页面后，代理服务器把该数据传送给客户端。
4.客户端浏览器显示该页面。
从www.96333.com的角度看来，连接是在1.2.3.4地1088端口和2.3.4.5的80端口之间建立的。从client的角度看来，连接是在192.168.1.100的1066端口和2.3.4.5的80端口之间建立的。
以上就是传统代理服务器和透明代理服务器的区别所在。
[反向代理]
反向代理是相对于传统代理而言，是代理web服务器接受客户端的请求。在此，我们忽略客户端的设置，假设客户端是可以直接访问互联网。
web服务器与客户端的结构如下：
假设已经将www.96333.com的域名指向了squid服务器所在的ip，并且在web服务器集群里做了dns轮询。
web server1 -|
web server2 -|- squid 服务器/ INTERNET / - Client
web server3 -|
1.客户端通过IE向DNS服务器发送访问www.96333.com的请求，由客户所在地的DNS服务器解析www.96333.com的IP为2.3.4.5并返回给用户。
2.客户收到DNS返回的服务器IP地址，重新向www.96333.com指向的IP地址发送访问请求。
3.squid 服务器接收到用户的请求后，查询自身缓存中是否有用户请求内容，有则直接发送给客户端，如果没有则通过内部DNS轮询查询空闲服务器，并将客户请求发送到该服务器，在获取到用户数据并返回给用户的同时保留一份在自己本身的缓存当中。在用户看来，自己访问的是www.96333.com这个服务器，实际上真正的WEB服务器为SQUID缓存后面的服务器或者服务器集群，通过外部DNS做CNAME转向，将用户请求转发到内部真正的web服务器上去。

Squid工作原理是什么

一、SQUID缓存的存放方式：
每一台Squid 代理服务器上都有若干颗硬盘，每颗硬盘又分割成多个分区，每一个分区又可建立很多目录，目录下才放文件(Squid 把它叫object)。

二、SQUID的查询方式：
SQUID通过查询表的方式来定位某个资源的位置，所查询的表叫Hash table 和Digest table;Digest table在这里可以称之为摘要或者索引，它记录了磁盘上每个分区，每个目录里存的缓存摘要，Hash table在这里可以称之为目录或者提纲，它记录所有的Digest table表信息，SQUID接受到请求后先查询Hash table，在根据Hash table所指向的Digest table查询需要的信息。

三、SQUID服务器之间的关系：
SQUID服务器存在两种工作关系，一种为Child、Parent，当child squid server没有用户需要的数据时，就象parent server发出请求，并持续等待，直到parent server回应自己为止；另外一种为ibling，当本地SQUID server没有用户请求数据时，会向sibling server发出请求,如果sibling server没有资料则会向上级sibling或者INTERNET发送数据请求

四、SQUID运作模式
1. 当Squid Server 没有资料时，会先向Sibling 的Squid Server 要资料，如果Sibling没资料，就跳过它直接向Parent 要。
2. 向Parent 要资料，然後一直等，直到Parent 给它资料为止(Parent 自己有的资料或上Internet 去拿)。
3. 没有Parent 时，就自己上Internet 去拿。
4. 如果这三者都拿不到资料，才向用户端回报拿不到资料。
一般而言，把网路上一层的Squid Server 设成Sibling 是不错的选择(例如：一个学校将所在城市网和附近的大学设成Sibling)，因为网路上一层的Squid Server 服务对象较多，其硬件功能较强，离我们比较近，速度也比较快；万一要不到资料，我们还可以自己上Internet 去拿。那什麽时候设Parent？当您的出口只有一个，或上一层Squid Server 拿不到资料，自己也一定拿不到，只好将上一层Squid Server 设为Parent。

转自http://wuhaoshu.blog.51cto.com/845270/399781

更多学习资料http://home.arcor.de/pangj/squid/index.html

posted on 2011-03-25 11:46 Peter Bi 阅读(4513) 评论(0) 编辑收藏举报