粘包
粘包问题出现的原因
服务端把要发送的数据送到服务端的缓存,通过网卡把数据从服务端的缓存到客户端的缓存,反过来同理。
而且这种数据流的交互是在两个不同的单向链接中进行,本身互不影响。
粘包问题
当我们服务端要给客户端回一个非常大的数据,但是客户端的最大接受量只设置了1024,这时候客户端只会接受服务端数据流的前1024个字节。其余的都在客户端的缓存里躺着。
这时候即使是修改最大接受量也行不通,因为数据流在数据传输完之前,我们不知道整个数据流有多大,而且,如果数据流的大小超出了我们缓存大小,我们即使把最大接收量改成无穷大依旧不行,因为当数据流把缓存占满了,其他数据流还在传输的时候,客户端就已经在读取数据了。
此外,发送方引起的粘包是由TCP协议本身造成的,TCP为提高传输效率,发送方往往要收集到足够多的数据后才发送一个TCP段。若连续几次需要send的数据都很少,通常TCP会根据优化算法把这些数据合成一个TCP段后一次发送出去,这样接收方就收到了粘包数据。
- TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务。收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。这样,接收端,就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
- UDP(user datagram protocol,用户数据报协议)是无连接的,面向消息的,提供高效率服务。不会使用块的合并优化算法,, 由于UDP支持的是一对多的模式,所以接收端的skbuff(套接字缓冲区)采用了链式结构来记录每一个到达的UDP包,在每个UDP包中就有了消息头(消息来源地址,端口等信息),这样,对于接收端来说,就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。
- tcp是基于数据流的,于是收发的消息不能为空,这就需要在客户端和服务端都添加空消息的处理机制,防止程序卡住,而udp是基于数据报的,即便是你输入的是空内容(直接回车),那也不是空消息,udp协议会帮你封装上消息头,实验略
udp的recvfrom是阻塞的,一个recvfrom(x)必须对唯一一个sendinto(y),收完了x个字节的数据就算完成,若是y>x数据就丢失,这意味着udp根本不会粘包,但是会丢数据,不可靠
tcp的协议数据不会丢,没有收完包,下次接收,会继续上次继续接收,己端总是在收到ack时才会清除缓冲区内容。数据是可靠的,但是会粘包。
解决粘包问题low的办法
粘包问题的根源在于,接受数据一方不知道这个数据的大小,所以我们可以让发送方在发送数据之前就把数据的大小先发送给接收方,以便接收方通过一个循环去完整的接受所有数据流
服务端
#_*_coding:utf-8_*_ __author__ = 'Linhaifeng' import socket,subprocess ip_port=('127.0.0.1',8080) s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) s.bind(ip_port) s.listen(5) while True: conn,addr=s.accept() print('客户端',addr) while True: msg=conn.recv(1024) if not msg:break res=subprocess.Popen(msg.decode('utf-8'),shell=True,\ stdin=subprocess.PIPE,\ stderr=subprocess.PIPE,\ stdout=subprocess.PIPE) err=res.stderr.read() if err: ret=err else: ret=res.stdout.read() # 获取要发送的数据长度 data_length=len(ret) # 把数据长度编码成utf8格式,并发送数据长度 conn.send(str(data_length).encode('utf-8')) # 获取接收方发来的准备完毕信息 data=conn.recv(1024).decode('utf-8') if data == 'recv_ready': # 发送真实数据 conn.sendall(ret) conn.close()
客户端
#_*_coding:utf-8_*_ __author__ = 'Linhaifeng' import socket,time s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) res=s.connect_ex(('127.0.0.1',8080)) while True: msg=input('>>: ').strip() if len(msg) == 0:continue if msg == 'quit':break s.send(msg.encode('utf-8')) # 接受服务端发送的数据长度 length=int(s.recv(1024).decode('utf-8')) # 向服务端发送准备好接受数据 s.send('recv_ready'.encode('utf-8')) send_size=0 recv_size=0 data=b'' while recv_size < length: # 通过循环以每次1024个字节数去接受服务端发回来的数据 data+=s.recv(1024) recv_size+=len(data) print(data.decode('utf-8'))
low的原因:
程序的运行速度远快于网络传输速度,所以在发送一段字节前,先用send去发送该字节流长度,这种方式会放大网络延迟带来的性能损耗
聪明人的解决粘包问题
上面一种办法虽然解决了粘包问题,但是多了一次io操作。为了避免这种多于操作,我们要知道那次io的目的是什么
为了在数据传输之前就知道数据流的大小,但是我们本身不知道数据长度的大小,所以要分开发送。
这里引入struct模块,用来把数字转换成固定长度的bytes
import json,struct #假设通过客户端上传1T:1073741824000的文件a.txt #为避免粘包,必须自定制报头 header={'file_size':1073741824000,'file_name':'/a/b/c/d/e/a.txt','md5':'8f6fbf8347faa4924a76856701edb0f3'} #1T数据,文件路径和md5值 #为了该报头能传送,需要序列化并且转为bytes head_bytes=bytes(json.dumps(header),encoding='utf-8') #序列化并转成bytes,用于传输 #为了让客户端知道报头的长度,用struck将报头长度这个数字转成固定长度:4个字节 head_len_bytes=struct.pack('i',len(head_bytes)) #这4个字节里只包含了一个数字,该数字是报头的长度 #客户端开始发送 conn.send(head_len_bytes) #先发报头的长度,4个bytes conn.send(head_bytes) #再发报头的字节格式 conn.sendall(文件内容) #然后发真实内容的字节格式 #服务端开始接收 head_len_bytes=s.recv(4) #先收报头4个bytes,得到报头长度的字节格式 x=struct.unpack('i',head_len_bytes)[0] #提取报头的长度 head_bytes=s.recv(x) #按照报头长度x,收取报头的bytes格式 header=json.loads(json.dumps(header)) #提取报头 #最后根据报头的内容提取真实的数据,比如 real_data_len=s.recv(header['file_size']) s.recv(real_data_len)
服务端
import socket,struct,json import subprocess phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM) phone.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它,在bind前加 phone.bind(('127.0.0.1',8080)) phone.listen(5) while True: conn,addr=phone.accept() while True: cmd=conn.recv(1024) if not cmd:break print('cmd: %s' %cmd) res=subprocess.Popen(cmd.decode('utf-8'), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE) err=res.stderr.read() print(err) if err: back_msg=err else: back_msg=res.stdout.read() conn.send(struct.pack('i',len(back_msg))) #先发back_msg的长度 conn.sendall(back_msg) #在发真实的内容 conn.close()
客户端
#_*_coding:utf-8_*_ __author__ = 'Linhaifeng' import socket,time,struct s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) res=s.connect_ex(('127.0.0.1',8080)) while True: msg=input('>>: ').strip() if len(msg) == 0:continue if msg == 'quit':break s.send(msg.encode('utf-8')) # 这是我们是先设定好的已经知道数据头长度为4,取第一个数据流的前四个字节进行解码操作就能得到数据流长度 l=s.recv(4) # 获取反解出的第一个元素(元组的第一个元素为数据流长度) x=struct.unpack('i',l)[0] print(type(x),x) # print(struct.unpack('I',l)) r_s=0 data=b'' while r_s < x: r_d=s.recv(1024) data+=r_d r_s+=len(r_d) # print(data.decode('utf-8')) print(data.decode('gbk')) #windows默认gbk编码
上面只是单纯的传数据流长度,但是有时候我们的数据流可能是一个字典,内含很多对数据的描述信息。这里我们可以通过json把我们的数据头字典序列化,再用struct打包成数字发送给接收端进行反解得到头长度。
原理和上面的方法类似
只传数据流长度的情况:
我们不知道数据流长度,所以先把数据流长度通过struct打包成固定长度的4个字节,发送给客户端,客户端在事先已经被我们定义好了把数据流的前4个字节反解成数据流长度。
传数据头的情况
我们不知道数据头的长度,所以事先把数据头给json序列化成字符串,把序列化的字符串长度通过struct打包成固定长度的4个字节,发送给客户端,客户端反序列化得到数据头长度,就可以再限定下一次接受数据的长度,接受到数据头后,解析出里面的数据流大小,再通过循环把数据流完整的取出来
服务端
import socket,struct,json import subprocess phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM) phone.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它,在bind前加 phone.bind(('127.0.0.1',8080)) phone.listen(5) while True: conn,addr=phone.accept() while True: cmd=conn.recv(1024) if not cmd:break print('cmd: %s' %cmd) res=subprocess.Popen(cmd.decode('utf-8'), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE) err=res.stderr.read() print(err) if err: back_msg=err else: back_msg=res.stdout.read() # 写一个数据头,内含对数据的描述信息,比如数据流长度 headers={'data_size':len(back_msg)} # 序列化数据头 head_json=json.dumps(headers) # 把序列化的结果转换成二进制 head_json_bytes=bytes(head_json,encoding='utf-8') # 第一次发送:把数据头序列化成二进制的长度先发送出去 conn.send(struct.pack('i',len(head_json_bytes))) # 第二次发送:把数据头发送出去 conn.send(head_json_bytes) # 第三次发送:真实数据流 conn.sendall(back_msg) conn.close()
客户端
from socket import * import struct,json ip_port=('127.0.0.1',8080) client=socket(AF_INET,SOCK_STREAM) client.connect(ip_port) while True: cmd=input('>>: ') if not cmd:continue client.send(bytes(cmd,encoding='utf-8')) # 事先先定好我们的数据头长度的接收(第一次接收:数据头长度) head=client.recv(4) # 把数据头长度反解成真实长度 head_json_len=struct.unpack('i',head)[0] # 接受到数据头展开并反解(第二次接收:数据头) head_json=json.loads(client.recv(head_json_len).decode('utf-8')) data_len=head_json['data_size'] recv_size=0 recv_data=b'' # 第三次接受,循环接受数据流 while recv_size < data_len: recv_data+=client.recv(1024) recv_size+=len(recv_data) print(recv_data.decode('utf-8')) #print(recv_data.decode('gbk')) #windows默认gbk编码