Nginx之反向代理配置(一)
前文我们聊了下Nginx作为web服务器配置https、日志模块的常用配置、rewrite模块重写用户请求的url,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/12398242.html;今天来聊一聊Nginx是怎么反向代理,怎么防盗链;前文的最后我们提到了防盗链,到底什么是防盗链呢?在我们平时上网相信很多人都遇到过这样的情况,我们打开一个网页,在里面可以看到很多裂图,看不到图片,或者看到此图片仅某某网站网友交流使用之类的,这就是防盗链;我们知道在一个网页里面,里面的资源不一定都是来自一个服务器的,比如图片很可能来自图片服务器,js、css很可能来自其他静态资源服务器上;所以稍微懂点的人就知道如何将别人网站上的图片、js文件呀链接到自己的网站使用,这种行为就叫盗用别人家的资源,简称盗链;这里就不过多阐述了;我们来说说nginx的referer模块吧。
一、ngx_http_referer_module:此模块用于阻止对“Referer”头字段中包含无效值的请求的站点访问;
通常一次http事务就是客户端请求服务端,服务端响应客户端的一个流程;客户端请求服务端,会在请求头部添加一些信息,比如用什么方法请求服务端的资源呀,资源的路径是什么,用的http协议版本是多少,请求的host主机是什么等等;其中如果客户端是直接从浏览器上介入域名直接访问web服务器,其头部是没有referer这个信息的;referer是什么?referer是记录客户端从哪里来访问我们服务端的,如果客户端是通过某个网站点击访问到我们的服务器时,它发过来的请求头部就有对应网站的域名;防盗链就是利用referer这个头部的信息来做控制的;
1、valid_referers none | blocked | server_names | string ...;定义合法referer合法值;这里解释下,none表示请求头部没有referer字段,通常情况下没有referer字段都是从浏览器(web客户端)介入域名访问的;blocked表示请求头部有referer字段,但是没有值,像这种请求我们是无法判断客户端是从哪里访问我们服务器的,通常情况我们把这类请求时允许访问的;server_name表示请求头部有referer字段和信息,其值就是对方主机名;我们在定义一个合法的referer时,是可以用通配或正则去匹配server_names;
示例:
valid_referers none blocked server_names *.example.com example.* www.example.org/galleries/ ~\.google\.;
提示:以上配置表示合法的referer有 ,请求报文里没有referer字段的请求,有referer字段但是没有值的,以任何内容开头结尾是.example.com的主机名或者是以example开头的主机,或者referer是www.example.org/galleries/或者是包含google的都是合法的,意思是客户端请求报文的referer信息满足我们定义的合法信息,或者说能够被我们定义的合法referer匹配到,我们就说该用户是一个合法的请求,理所当然的是应该允许被访问的;当然我们定义了合法referer,如果客户端请求报文里的referer信息不配我们定义的合法referer匹配,我们就说这里客户端的referer是非法的,是不被允许的,理所当然的就应该做其他处理;这个是ngxin里内部的机制,不被合法referer所匹配的referer都是非法的referer,通常是用$invalid_referer保留这些不合法referer;或者我们这样理解,不被合法referer所匹配的请求报文就会被$invalid_referer所匹配;有了这种机制我们就可以明确定义那些请求时合法的,相对的那些请求是不合法的,对于不合法的我们可以这么处理;如下
提示:以上配置表示如果客户端请求报文的referer信息不是.ilinux.com结尾或者不是以www.ilinux.开头 或者 不是www.ilinux.io 或者不包含.baidu.或者.google. 我们都响应该客户端请求响应码为403;
二、ngx_http_proxy_module:此模块允许将请求传递到另一个服务器。
1、proxy_pass URL;该指令主要作用是用来设置被代理服务器地址的,可以说主机名称,IP地址加端口的形式;其中URL表示被代理服务器的地址,包含协议、主机名或IP加端口、URI等。传输协议通常是“http”或者"https";如果我们被代理的是一个本地unix-domain套接字时,也支持以http://或https://加unix套接字路径的形式;如果我们代理的是一组服务器时,我们可以用upstream指令把该组服务器同一归并为一个名称的组服务器组,当然这是我们后面要聊的nginx作为负载均衡的配置;这里特别要说明的是URL中是否包含URI,什么意思呢,就是URL不包含URI的意思就是 被代理的URL没有URI,就只有协议IP地址或域名或主机名,这种就叫不带URI;带URI就表示除了协议主机名或域名或IP地址外,后面还有RUI;对于这两种情况Nginx处理逻辑上不一样的,如果RUL不包含URI 那么nginx服务器不会改变源地址的URI;如果URL包含URI,nginx服务器将会使用新的URI替换原来的URI;
示例:
提示:以上配置就是我们所的URL不包含URI的情况,用户请求www.test.com/en/docs/将会被该location匹配到,然后将访问www.test.com/en/docs/将会被代理到http://nginx.org/en/docs/;我们可以理解为被代理的URL不包含URI时,Nginx服务器会把用户请求的URI当作被代理服务器的URI;所以以上配置就表示,用户访问www.test.com/en/docs/将被代理至http://nginx.org/en/docs/
提示:在做以上实验时,需要在Windows上做好解析www.test.com;Windows上需要在C:\Windows\System32\drivers\etc\hosts文件中添加一条解析记录,语法同Linux里的hosts一样192.168.0.30 www.ilinux.io www.test.com;
提示:以上配置就是URL包含URI的情况,这种情况Nginx服务器会把用户请求的URI替换成被代理的URI;以上面的配置示例,如果用户请求www.test.com/test/那么这个请求到了nginx服务器时,nginx会把用户原有的URI/test/替换成/en/docs/,所以用户请求www.test.com/test/就会被代理至http://nginx.org/en/docs/;
提示:通过上面的演示,我们可以总结为,如果我们不想改变源请求的URI,那么我们在后端代理时就不带URI,如果我们想更改源请求URI,那么我们在后端代理时,就带上URI即可
理解了上面我们所的URL包含或不包含URI,我们就不难理解下面的例子
示例:proxy_pass URL末尾是否带“/”问题
提示:以上配置和我们之前的第一个示例就只多了一个“/”;多一个“/”在我们看来是不要紧,但它对nginx来说,意思却变了,就以我们上面说的,这种就是URL包含URI的情况,nginx会把后面的“/”认为是URI,不是认为,它本来就是一个URI;当客户端请求www.test.com/en/docs/时,nginx会把该请求代理至http://nginx.org/;当然这样处理后的结果肯定和我们之前的结果是完全不一样的,http://nginx.org/就表示请求nginx.org的主页;
提示:和第一个示例一样的URL,对于proxy_pass URL后面没有"/"和有“/”被代理响应的结果是不一样的;
除了上面URL包含或不包含URI问题需要我们特别注意外,我们还要注意,如果location定义URI时使用了正则,或在if语句或在limit_execept中使用了proxy_pass指令,则proxy_pass 之后不能使用URI;用户请求时传递的URI将直接附加代理到的服务器之后;意思就是URL包含URI的情况不能在location 使用了正则匹配URL,或者URL包含URI的情况不允许用在if语句中 或limit_except中
示例:
提示:这种配置我们在语法检查的时候就通不过,要想被通过,我们只需要把proxy_pass指令后面的URI去掉即可
提示:总结一点就是location中使用了正则匹配 URL时,后面代理是不能有URI的,否则语法错误;
2、proxy_set_header field value;设定发往后端主机的请求报文的请求首部的值;可用在http,server,location配置段中
proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
提示:以上配置表示在用户请求通过代理发送给后端主机时,在其请求头部加上X-Real-IP这个字段,并且这个字段的值是$remote_addr(客户端IP地址)和X-Forwarded-For字段,其值为$proxy_add_x_forwarded_for;$proxy_add_x_forwarded_for 这个变量是也是记录IP地址的,不同的是,这个变量它记录了客户端IP和代理服务端ip,两个IP分别用逗号隔开,如果没有代理服务器的场景,这个变量的意义同$remote_addr是一样的,都是记录客户端客户端IP
3、proxy_cache_path:定义可用于proxy功能的缓存,此指令只可配置在http配置段;
语法:
proxy_cache_path path [levels=levels] [use_temp_path=on|off] keys_zone=name:size [inactive=time] [max_size=size] [manager_files=number] [manager_sleep=time] [manager_threshold=time] [loader_files=number] [loader_sleep=time] [loader_threshold=time] [purger=on|off] [purger_files=number] [purger_sleep=time] [purger_threshold=time];
path:表示设置缓存数据存放路径,该路径必须事先存在;
levels;表示设置存放缓存数据的目录级别,这个和前面说的nginx缓存目录一样。levels=1:2表示两级目录,且一级目录是一个字符哈希目录,二级目录是两个字符的哈希目录,目录名称是基于URL哈希算法获取到的;
keys_zone=name:size 表示设置缓存索引在内存区域的名称和大小;
inactive=time设置非活动缓存时间,在指定的时间内如果该缓存项没有被命中,nginx就会强制把该缓存从磁盘上删除,如果下次有人访问时在缓存,依次循环;默认10分钟;
max_size=size:设置磁盘中缓存数据的大小限制,当缓存数据超过我们设定的大小时,就是用LRU算法来删除缓存;
loader_files=number:设置缓存索引重建进程每次加载的数据元素的数量上限;
loader_sleep=time:设置缓存索引重建进程在一次遍历结束、下次遍历开始之间的暂停时长,默认是50ms
loader_threshold=time:设置遍历一次磁盘缓存源数据的时间上限,默认设置为200ms
通常情况下我们不需要设置这么多选项,只需要把前三个选项设置好就行了,没有特殊的要求后面的选项我们用默认值就可以
示例:
提示:以上配置表示定义代理缓存路径是/cache/proxy/nginx 目录级别是1:2:1 缓存索引重建进程内存区域名称为proxy_cache,大小为10M 对于磁盘上的/cache/proxy/nginx/目录最大缓存空间为2g;这样设置后,我们就可以在各个server或location中来调用此缓存定义
4、proxy_cache zone | off;指明要调用的缓存,或关闭缓存机制;此指令可用于http,server,location配置段中;
示例
提示:这样去调用缓存空间进行缓存是不能够缓存的,因为我们调用缓存空间是有条件的,比如我们要对那些请求方法的请求进行缓存?对不同响应码的资源缓存多久?是否在后端服务器出现错误时,我们继续使用缓存来响应?所以我们现在虽然配置了调用缓存空间,但是我们服务器还是不知道怎么去缓存客户访问的内容;所以它干脆就不给缓存;
示例:我们只调用了缓存空间,没有配置其他配置,用户访问的数据是否能够缓存下来呢?
提示:可以看到我们只配置缓存空间然后调用是不行的,我们还需要指定缓存的key是什么 ,对客户端使用的那些方法进行缓存,对不同的响应码的资源缓存多久,这是调用缓存空间的几个必要的配置,我们需要加上才行;
5、proxy_cache_key:定义缓存key,默认是$scheme$proxy_host$request_uri,它这个默认就是缓存的key是协议加代理主机地址或主机名或FQDN和用户请求的uri当作缓存的KEY;也就是说服务端怎么去找缓存的方式,对应key的定义;
6、proxy_cache_methods METHODS:定义缓存用户的请求方式,也就是说那些请求方法的资源我们要进行缓存,默认是GET HEAD;
7、proxy_cache_valid [code] time:定义不同的响应码的资源缓存时长;
8、proxy_cache_use_stale error |timeout|……:定义后端服务器基于那种状态使用缓存,默认是不基于后端服务器状态使用缓存;比如后端服务器发生错误,是否用缓存中的内容响应客户端?如果我们定义 proxy_cache_use_stale http 403就表示后端服务器如果响应代理服务器403,我们代理服务器就是用之前的缓存,响应客户端;
示例:
提示:以上配置表示使用proxy_cache缓存空间,缓存key是用户请求的uri进行缓存,对用户使用GET 和HEAD方法请求的资源进行缓存,对响应码是200 302的资源缓存15分钟,对响应码是404的资源缓存1分钟,后端服务器出现500 或502的错误,代理服务器使用以前的缓存响应客户端;
提示:可看到浏览器请求了两个uri,在对应的缓存目录里就存在两个缓存项;这里面每一个缓存项就是对应一个用户请求过多URI;通常情况我们启用了Nginx代理缓存功能时,用户第一次访问就会很慢,但是只要把数据缓存下来后,后续的用户在访问相同的URI时,这个速度就会有明显的提升;
总结对于nginx的缓存,我们首先在http配置段定义一个缓存空间,然后在各server或location中调用我们定义的缓存空间,并明确说明各种响应码的资源缓存多长时间,对于proxy_cache_key 和 proxy_cache_methods是可以不指定的,不指定就代表使用默认值,从上面的配置我们其实就只定义响应码是多少的资源缓存多久,其他的按照默认来,它也是可以进行缓存的;