socket套接字模块及黏包现象

一.socket套接字模块

socket概念

socket层

image

理解socket

Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口。在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。

其实站在你的角度上看,socket就是一个模块。我们通过调用模块中已经实现的方法建立两个进程之间的连接和通信。
也有人将socket说成ip+port,因为ip是用来标识互联网中的一台主机的位置,而port是用来标识这台机器上的一个应用程序。
所以我们只要确立了ip和port就能找到一个应用程序,并且使用socket模块来与之通信。

tcp协议和udp协议

TCP(Transmission Control Protocol)可靠的、面向连接的协议(eg:打电话)、传输效率低全双工通信(发送缓存&接收缓存)、面向字节流。使用TCP的应用:Web浏览器;电子邮件、文件传输程序。

UDP(User Datagram Protocol)不可靠的、无连接的服务,传输效率高(发送前时延小),一对一、一对多、多对一、多对多、面向报文,尽最大努力服务,无拥塞控制。使用UDP的应用:域名系统 (DNS);视频流;IP语音(VoIP)。

我知道说这些你们也不懂,直接上图。

image

二.套接字(socket)初使用

基于TCP协议的socket

tcp是基于链接的,必须先启动服务端,然后再启动客户端去链接服务端

server端

import socket
sk = socket.socket()
sk.bind(('127.0.0.1',8898))  #把地址绑定到套接字
sk.listen(5)          #监听链接
conn,addr = sk.accept() #接受客户端链接
ret = conn.recv(1024)  #接收客户端信息
print(ret)       #打印客户端信息
conn.send(b'hi')        #向客户端发送信息
conn.close()       #关闭客户端套接字
sk.close()        #关闭服务器套接字(可选)

client端

import socket
sk = socket.socket()           # 创建客户套接字
sk.connect(('127.0.0.1',8898))    # 尝试连接服务器
sk.send(b'hello!')
ret = sk.recv(1024)         # 对话(发送/接收)
print(ret)
sk.close()            # 关闭客户套接字

问题:有的同学在重启服务端时可能会遇到

image

# 加入下面的代码
from socket import SOL_SOCKET, SO_REUSEADDR
server.setsockopt(SOL_SOCKET, SO_REUSEADDR, 1)  # 在bind前加

三.黏包

黏包现象

让我们基于tcp先制作一个远程执行命令的程序(命令ls -l ; lllllll ; pwd)

服务端

import socket
from socket import SOL_SOCKET, SO_REUSEADDR
import subprocess

server = socket.socket()  # 默认就是基于网络的TCP传输协议   买手机
server.setsockopt(SOL_SOCKET, SO_REUSEADDR, 1)  # 就是它,在bind前加
server.bind(('127.0.0.1', 8080))  # 绑定ip和port         插电话卡
server.listen(5)  # 半连接池            开机(过渡)

while True:
    sock, address = server.accept()  # 监听   三次握手的listen态
    print(address)  # 客户端地址
    while True:
        try:
            data = sock.recv(1024)  # 接收客户端发送的消息  听别人说话
            # 针对mac和linux需要加一句校验
            if len(data) == 0: continue
            command_cmd = data.decode('utf8')
            sub = subprocess.Popen(command_cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
            res = sub.stdout.read() + sub.stderr.read()
            sock.send(res)
        except ConnectionResetError as e:
            print(e)
            break

客户端

import socket

client = socket.socket()  # 买手机
client.connect(('127.0.0.1', 8080))  # 拨号

while True:
    msg = input('请输入cmd命令>>>:').strip()
    if len(msg) == 0:
        continue
    # 说话
    client.send(msg.encode('gbk'))
    # 听他说
    data = client.recv(1024)
    print(data.decode('gbk'))

image

黏包成因

TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务。
收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。
这样,接收端,就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。 
对于空消息:tcp是基于数据流的,于是收发的消息不能为空,这就需要在客户端和服务端都添加空消息的处理机制,防止程序卡住,而udp是基于数据报的,即便是你输入的是空内容(直接回车),也可以被发送,udp协议会帮你封装上消息头发送过去。 
可靠黏包的tcp协议:tcp的协议数据不会丢,没有收完包,下次接收,会继续上次继续接收,己端总是在收到ack时才会清除缓冲区内容。数据是可靠的,但是会粘包。

只有TCP会黏包,UDP不会发生黏包现象

黏包的两种情况

发送方的缓存机制

发送端需要等缓冲区满才发送出去,造成粘包(发送数据时间间隔很短,数据了很小,会合到一起,产生粘包)

接收方的缓存机制

接收方不及时接收缓冲区的包,造成多个包接收(客户端发送了一段数据,服务端只收了一小部分,服务端下次再收的时候还是从缓冲区拿上次遗留的数据,产生粘包)

总结

黏包现象只发生在tcp协议中:

1.从表面上看,黏包问题主要是因为发送方和接收方的缓存机制、tcp协议面向流通信的特点。

2.实际上,主要还是因为接收方不知道消息之间的界限,不知道一次性提取多少字节的数据所造成的

image

四.黏包解决方案

问题的根源在于,接收端不知道发送端将要传送的字节流的长度,所以解决粘包的方法就是围绕,如何让发送端在发送数据前,把自己将要发送的字节流总大小让接收端知晓,然后接收端来一个死循环接收完所有数据。

image

存在的问题:
程序的运行速度远快于网络传输速度,所以在发送一段字节前,先用send去发送该字节流长度,这种方式会放大网络延迟带来的性能损耗

我们可以借助一个模块,这个模块可以把要发送的数据长度转换成固定长度的字节。这样客户端每次接收消息之前只要先接受这个固定长度字节的内容看一看接下来要接收的信息大小,那么最终接受的数据只要达到这个值就停止,就能刚好不多不少的接收完整的数据了。

struct模块

import struct
obj = struct.pack('i',123456)
print(len(obj))  # 4
obj = struct.pack('i',898898789)
print(len(obj))  # 4
# 无论数字多大,打包后长度恒为4

image

使用struct解决黏包

借助struct模块,我们知道长度数字可以被转换成一个标准大小的4字节数字。因此可以利用这个特点来预先发送数据长度

发送时 接收时
先发送struct转换好的数据长度4字节 先接受4个字节使用struct转换成数字来获取要接收的数据长度
再发送数据 再按照长度接收数据

服务端

import socket
import subprocess
import struct

# 获得手机
server = socket.socket()
# 固定地址
server.bind(('127.0.0.1', 9999))
# 设置半连接池
server.listen(5)
while True:
    # 监听
    sock, address = server.accept()
    try:
        while True:
            cmd_command = sock.recv(1024)
            sub = subprocess.Popen(cmd_command.decode('utf8'),
                                   shell=True,
                                   stdout=subprocess.PIPE,
                                   stderr=subprocess.PIPE)
            msg = sub.stdout.read() + sub.stderr.read()
            # 制作msg的报头
            msg_head = struct.pack('i', len(msg))
            # 发送报头
            sock.send(msg_head)
            # 发送真实信息
            sock.send(msg)
    except ConnectionResetError as e:
        print(e)
        break

客户端

import socket
import struct

# 获得手机
client = socket.socket()
# 拨号
client.connect(('127.0.0.1', 9999))
while True:
    cmd_command = input('请输入要执行的CMD命令(按q退出)>>>:').strip()
    if not cmd_command: continue
    if cmd_command.lower() == 'q':
        break
    client.send(cmd_command.encode('utf8'))
    # 接收报头
    msg_head = client.recv(4)
    msg_len = struct.unpack('i', msg_head)[0]
    # 接收真实数据
    msg = client.recv(msg_len)
    print(msg.decode('gbk'))

image

发送时 接收时
发字典报头 先收报头长度,用struct取出来
发字典 根据取出的长度收取报头内容,然后解码,反序列化
发真实数据 从反序列化的结果中取出待取数据的详细信息,然后去取真实的数据内容
# server端
		 # 1. 先制作报头
     header_dic = {
         'filename': 'a.txt',
         'md5': 'asdfasdf123123x1',
         'total_size': len(stdout) + len(stderr)
     }
     header_json = json.dumps(header_dic)
     header_bytes = header_json.encode('utf-8')
     # 2. 先发送4个bytes(包含报头的长度)
     conn.send(struct.pack('i', len(header_bytes)))
     # 3  再发送报头
     conn.send(header_bytes)
     # 4. 最后发送真实的数据
     conn.send(stdout)
     conn.send(stderr)
# client端
		#1. 先收4bytes,解出报头的长度
    header_size=struct.unpack('i',client.recv(4))[0]
    #2. 再接收报头,拿到header_dic
    header_bytes=client.recv(header_size)
    header_json=header_bytes.decode('utf-8')
    header_dic=json.loads(header_json)
    print(header_dic)
    total_size=header_dic['total_size']
    #3. 接收真正的数据
    cmd_res=b''
    recv_size=0
    while recv_size < total_size:
        data=client.recv(1024)
        recv_size+=len(data)
        cmd_res+=data
    print(cmd_res.decode('gbk'))

总结:先发字典报头,再发字典数据,最后发真实数据

image

posted @ 2022-01-13 16:29  zong涵  阅读(80)  评论(0编辑  收藏  举报