python之代理服务小程序
使用某某代理时免费版的限制连接数,除此就要购买......实现个简单的代理服务程序,一探究竟,
当然复杂的也是这些原理。代理服务原理很简单,就拿浏览器与web服务器来说。无非是A浏览器
发request给B代理,B代理再把request把送给C web服务,然后C的reponse->B->A。
要写web代理服务就要先了解下http协议,当然并不要多深入,除非要实现强大的功能:修改XX信息、
负载均衡等。http请求由三部分组成:请求行、消息报头、请求正文;
详细的网上有,想了解可以看看。下面是一个正常的GET请求头(Cookie部分本人没截屏,使用的系统w7):
可以看到首行:GET是请求方法, /是路径,在后面是协议版本;第二行以后是请求报头,都是键值对形式;
GET方法没有正文。post有正文,除此之外,请求方法头部基本一致,每一行结尾都是\r\n。
基本的请求方法,如下:
GET 请求获取Request-URI所标识的资源
POST 在Request-URI所标识的资源后附加新的数据
HEAD 请求获取由Request-URI所标识的资源的响应消息报头
PUT 请求服务器存储一个资源,并用Request-URI作为其标识
DELETE 请求服务器删除Request-URI所标识的资源
TRACE 请求服务器回送收到的请求信息,主要用于测试或诊断
CONNECT 保留将来使用
OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求
但是使用代理后,从代理服务上得到的请求如下:
与第一张图片对比一下,有什么不同......第一行的资源路径不对。当浏览器上设置代理请求时把整个url都作为
资源路径了,所以我们要把http://www.cnblogs.com删掉,然后代理服务器在把修改后的请求发送给目标
web服务器。就这么简单,当然CONNECT方法特别,要特别对待,所以先说其他方法。
基本的思路:
1、代理服务器运行监听,当有客户端浏览器请求到来时通过accept()获得client句柄(或者叫描述符);
2、利用client描述符接收浏览器发来的request,分离出第一行为了修改第一行和获得method,
要去掉的(如上图http://www.cnblogs.com)的部分,除去http://的部分用targetHost表示吧。
3、通过第2步能够获得方法method、request和targetHost,这一步可以根据不同的method做不同的处理,
由于GET、POET、PUT、DELETE等除了CONNECT处理基本一致,所以处理首行,比如:
GET http://www.cnblogs.com/ HTTP/1.1 替换为 GET / HTTP/1.1
此时targetHost也就是红色的部分,默认的请求80端口,此时port为80;如果targetHost中有端口(比如www.cnblogs.com:8081),
就要分理处端口,此时port为8081。然后根据targetHost和port连接到目标服务器target了,实现代码如下:
1 def getTargetInfo(self,host): #处理targetHost获得网址和端口,作为返回值。 2 port=0 3 site=None 4 if ':' in host: 5 tmp=host.split(':') 6 site=tmp[0] 7 port=int(tmp[1]) 8 else: 9 site=host 10 port=80 11 return site,port 12 13 def commonMethod(self,request): #处理除CONNECT以外的方法 14 tmp=self.targetHost.split('/') 15 net=tmp[0]+'//'+tmp[2] 16 request=request.replace(net,'') #替换掉首行不必要的部分 17
18 targetAddr=self.getTargetInfo(tmp[2]) #调用上面的函数 19 try: 20 (fam,_,_,_,addr)=socket.getaddrinfo(targetAddr[0],targetAddr[1])[0] 21 except Exception as e: 22 print e 23 return 24 self.target=socket.socket(fam) 25 self.target.connect(addr) #连接到目标web服务
4、这一步就好办了,根据第三步处理后的request就可以self.target.send(request)发送给web服务器了。
5、这一步web服务器的reponse反响通过代理服务直接转发给客户端就行了,本人用了非阻塞select,可以试试epoll。
基本步骤就是这样,使用的方法函数可以改进,比如主函数部分使用的多线程或者多进程,怎样选择......
但是思路差不多都是这样啦。想测试的话,chrome安装SwitchySharp插件,设置一下,代理端口8083;
firefox插件autoproxy。
对于connect的处理还在解决,所以现在这个代理程序不支持https协议(github已更新)。
代理服务可以获得http协议的所有信息,想了解学习http,利用代理服务器是个不错的方法。
下面附上代码,更新会在https://github.com/915546302/tinyproxy
1 #-*- coding: UTF-8 -*- 2 import socket,select 3 import sys 4 import thread 5 from multiprocessing import Process 6 7 class Proxy: 8 def __init__(self,soc): 9 self.client,_=soc.accept() 10 self.target=None 11 self.request_url=None 12 self.BUFSIZE=4096 13 self.method=None 14 self.targetHost=None 15 def getClientRequest(self): 16 request=self.client.recv(self.BUFSIZE) 17 if not request: 18 return None 19 cn=request.find('\n') 20 firstLine=request[:cn] 21 print firstLine[:len(firstLine)-9] 22 line=firstLine.split() 23 self.method=line[0] 24 self.targetHost=line[1] 25 return request 26 def commonMethod(self,request): 27 tmp=self.targetHost.split('/') 28 net=tmp[0]+'//'+tmp[2] 29 request=request.replace(net,'') 30 targetAddr=self.getTargetInfo(tmp[2]) 31 try: 32 (fam,_,_,_,addr)=socket.getaddrinfo(targetAddr[0],targetAddr[1])[0] 33 except Exception as e: 34 print e 35 return 36 self.target=socket.socket(fam) 37 self.target.connect(addr) 38 self.target.send(request) 39 self.nonblocking() 40 def connectMethod(self,request): #对于CONNECT处理可以添加在这里 41 pass 42 def run(self): 43 request=self.getClientRequest() 44 if request: 45 if self.method in ['GET','POST','PUT',"DELETE",'HAVE']: 46 self.commonMethod(request) 47 elif self.method=='CONNECT': 48 self.connectMethod(request) 49 def nonblocking(self): 50 inputs=[self.client,self.target] 51 while True: 52 readable,writeable,errs=select.select(inputs,[],inputs,3) 53 if errs: 54 break 55 for soc in readable: 56 data=soc.recv(self.BUFSIZE) 57 if data: 58 if soc is self.client: 59 self.target.send(data) 60 elif soc is self.target: 61 self.client.send(data) 62 else: 63 break 64 self.client.close() 65 self.target.close() 66 def getTargetInfo(self,host): 67 port=0 68 site=None 69 if ':' in host: 70 tmp=host.split(':') 71 site=tmp[0] 72 port=int(tmp[1]) 73 else: 74 site=host 75 port=80 76 return site,port 77 78 if __name__=='__main__': 79 host = '127.0.0.1' 80 port = 8083 81 backlog = 5 82 server = socket.socket(socket.AF_INET,socket.SOCK_STREAM) 83 server.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) 84 server.bind((host,port)) 85 server.listen(backlog) 86 while True: 87 thread.start_new_thread(Proxy(server).run,()) 88 # p=Process(target=Proxy(server).run, args=()) #多进程 89 # p.start() 90 91