套接字

源IP地址和目的IP地址以及源端口号和目的端口号的组合称为套接字。其用于标识客户端请求的服务器和服务。

它是网络通信过程中端点的抽象表示，包含进行网络通信必须的五种信息：连接使用的协议，本地主机的IP地址，本地进程的协议端口，远地主机的IP地址，远地进程的协议端口。

分类

常用的TCP/IP协议的3种套接字类型如下所示。

流套接字（SOCK_STREAM）：

流套接字用于提供面向连接、可靠的数据传输服务。该服务将保证数据能够实现无差错、无重复发送，并按顺序接收。流套接字之所以能够实现可靠的数据服务，原因在于其使用了传输控制协议，即TCP（The Transmission Control Protocol）协议。

数据包套接字（SOCK_DGRAM）：

数据包套接字提供了一种无连接的服务。该服务并不能保证数据传输的可靠性，数据有可能在传输过程中丢失或出现数据重复，且无法保证顺序地接收到数据。数据包套接字使用UDP（User Datagram Protocol）协议进行数据的传输。由于数据包套接字不能保证数据传输的可靠性，对于有可能出现的数据丢失情况，需要在程序中做相应的处理。

原始套接字（SOCK_RAW）：

原始套接字(SOCKET_RAW)允许对较低层次的协议直接访问，比如 IP、 ICMP协议，它常用于检验新的协议实现，或者访问现有服务中配置的新设备，因为RAW SOCKET可以自如地控制Windows下的多种协议，能够对网络底层的传输机制进行控制，所以可以应用原始套接字来操纵网络层和传输层应用。比如，我们可以通过RAW SOCKET来接收发向本机的ICMP、IGMP协议包，或者接收TCP/IP栈不能够处理的IP包，也可以用来发送一些自定包头或自定协议的IP包。网络监听技术很大程度上依赖于SOCKET_RAW

原始套接字与标准套接字（标准套接字指的是前面介绍的流套接字和数据包套接字）的区别在于：原始套接字可以读写内核没有处理的IP数据包，而流套接字只能读取TCP协议的数据，数据包套接字只能读取UDP协议的数据。因此，如果要访问其他协议发送数据必须使用原始套接字。

简介

套接字，是支持TCP/IP的网络通信的基本操作单元，可以看做是不同主机之间的进程进行双向通信的端点，简单的说就是通信的两方的一种约定，用套接字中的相关函数来完成通信过程。

非常非常简单的举例说明下:Socket=Ip address+ TCP/UDP + port。

连接方式

应用层通过传输层进行数据通信时，TCP和UDP会遇到同时为多个应用程序进程提供并发服务的问题。

主要参数

区分不同应用程序进程间的网络通信和连接,主要有3个参数：通信的目的IP地址、使用的传输层协议(TCP或UDP)和使用的端口号。Socket原意是 “插座”。通过将这3个参数结合起来，与一个“插座”Socket绑定，应用层就可以和传输层通过套接字接口，区分来自不同应用程序进程或网络连接的通信，实现数据传输的并发服务。

Socket可以看成在两个程序进行通讯连接中的一个端点，是连接应用程序和网络驱动程序的桥梁，Socket在应用程序中创建，通过绑定与网络驱动建立关系。此后，应用程序送给Socket的数据，由Socket交给网络驱动程序向网络上发送出去。计算机从网络上收到与该Socket绑定IP地址和端口号相关的数据后，由网络驱动程序交给Socket，应用程序便可从该Socket中提取接收到的数据，网络应用程序就是这样通过Socket进行数据的发送与接收的。

基本 TCP 套接字编程讲解

基于 TCP 的套接字编程的所有客户端和服务器端都是从调用socket 开始，它返回一个套接字描述符。客户端随后调用connect 函数，服务器端则调用 bind、listen 和accept 函数。

AD：51CTO 网+ 第十二期沙龙：大话数据之美_如何用数据驱动用户体验

基于 TCP 的套接字编程的所有客户端和服务器端都是从调用socket 开始，它返回一个套接字描述符。客户端随后调用connect 函数，服务器端则调用 bind、listen 和accept 函数。套接字通常使用标准的close 函数关闭，但是也可以使用 shutdown 函数关闭套接字。下面针对套接字编程实现过程中所调用的函数进程分析。以下是基于 TCP 套接字编程的流程图：

socket 函数

套接字是通信端点的抽象，实现端对端之间的通信。与应用程序要使用文件描述符访问文件一样，访问套接字需要套接字描述符。任何套接字编程都必须调用socket 函数获得套接字描述符，这样才能对套接字进行操作。以下是该函数的描述：

/* 套接字 */
/*
* 函数功能：创建套接字描述符；
* 返回值：若成功则返回套接字非负描述符，若出错返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int socket(int family, int type, int protocol);
/*
* 说明：
* socket类似与open对普通文件操作一样，都是返回描述符，后续的操作都是基于该描述符；
* family 表示套接字的通信域，不同的取值决定了socket的地址类型，其一般取值如下：
* （1）AF_INET IPv4因特网域
* （2）AF_INET6 IPv6因特网域
* （3）AF_UNIX Unix域
* （4）AF_ROUTE 路由套接字
* （5）AF_KEY 密钥套接字
* （6）AF_UNSPEC 未指定
*
* type确定socket的类型，常用类型如下：
* （1）SOCK_STREAM 有序、可靠、双向的面向连接字节流套接字
* （2）SOCK_DGRAM 长度固定的、无连接的不可靠数据报套接字
* （3）SOCK_RAW 原始套接字
* （4）SOCK_SEQPACKET 长度固定、有序、可靠的面向连接的有序分组套接字
*
* protocol指定协议，常用取值如下：
* （1）0 选择type类型对应的默认协议
* （2）IPPROTO_TCP TCP传输协议
* （3）IPPROTO_UDP UDP传输协议
* （4）IPPROTO_SCTP SCTP传输协议
* （5）IPPROTO_TIPC TIPC传输协议
*
*/

connect 函数

在处理面向连接的网络服务时，例如 TCP ，交换数据之前必须在请求的进程套接字和提供服务的进程套接字之间建立连接。TCP 客户端可以调用函数connect 来建立与 TCP 服务器端的一个连接。该函数的描述如下：

/*
* 函数功能：建立连接，即客户端使用该函数来建立与服务器的连接；
* 返回值：若成功则返回0，出错则返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int connect(int sockfd, const struct sockaddr *servaddr, socklen_t addrlen);
/*
* 说明：
* sockfd是系统调用的套接字描述符，即由socket函数返回的套接字描述符；
* servaddr是目的套接字的地址，该套接字地址结构必须包含目的IP地址和目的端口号，即想与之通信的服务器地址；
* addrlen是目的套接字地址的大小；
*
* 如果sockfd没有绑定到一个地址，connect会给调用者绑定一个默认地址，即内核会确定源IP地址，并选择一个临时端口号作为源端口号；
*/

TCP 客户端在调用函数 connect 前不必非得调用 bind 函数，因为内核会确定源 IP 地址，并选择一个临时端口作为源端口号。若 TCP 套接字调用connect 函数将建立 TCP 连接(执行三次握手)，而且仅在连接建立成功或出错时才返回，其中出错返回可能有以下几种情况：

若 TCP 客户端没有收到 SYN 报文段的响应，则返回 ETIMEOUT 错误;

若客户端的 SYN 报文段的响应是 RST (表示复位)，则表明该服务器主机在我们指定的端口上没有进程在等待与之连接。只是一种硬错误，客户端一接收到 RST 就立即返回ECONNERFUSED 错误;

RST 是 TCP 在发生错误时发送的一种 TCP 报文段。产生 RST 的三个条件时：

目的地为某端口的 SYN 到达，然而该端口上没有正在监听的服务器;

TCP 想取消一个已有连接;

TCP 接收到一个不存在的连接上的报文段;

若客户端发出的 SYN 在中某个路由器上引发一个目的地不可达的 ICMP 错误，这是一个软错误。客户端主机内核保存该消息，并在一定的时间间隔继续发送 SYN (即重发)。在某规定的时间后仍未收到响应，则把保存的消息(即 ICMP 错误)作为EHOSTUNREACH 或ENETUNREACH 错误返回给进行。

bind 函数

调用函数 socket 创建套接字描述符时，该套接字描述符是存储在它的协议族空间中，没有具体的地址，要使它与一个地址相关联，可以调用函数bind 使其与地址绑定。客户端的套接字关联的地址一般可由系统默认分配，因此不需要指定具体的地址。若要为服务器端套接字绑定地址，可以通过调用函数 bind 将套接字绑定到一个地址。下面是该函数的描述：

/* 套接字的基本操作 */
/*
* 函数功能：将协议地址绑定到一个套接字；其中协议地址包含IP地址和端口号；
* 返回值：若成功则返回0，若出错则返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
/*
* 说明：
* sockfd 为套接字描述符；
* addr是一个指向特定协议地址结构的指针；
* addrlen是地址结构的长度；
*/

对于 TCP 协议，调用 bind 函数可以指定一个端口号，或指定一个 IP 地址，也可以两者都指定，还可以都不指定。若 TCP 客户端或服务器端不调用bind 函数绑定一个端口号，当调用connect 或 listen 函数时，内核会为相应的套接字选择一个临时端口号。一般 TCP 客户端使用内核为其选择一个临时的端口号，而服务器端通过调用bind 函数将端口号与相应的套接字绑定。进程可以把一个特定的 IP 地址捆绑到它的套接字上，但是这个 IP 地址必须属于其所在主机的网络接口之一。对于 TCP 客户端，这就为在套接字上发送的 IP 数据报指派了源 IP 地址。对于 TCP 服务器端，这就限定该套接字只接收那些目的地为这个 IP 地址的客户端连接。TCP 客户端一般不把 IP 地址捆绑到它的套接字上。当连接套接字时，内核将根据所用外出网络接口来选择源 IP 地址，而所用外出接口则取决于到达服务器端所需的路径。若 TCP 服务器端没有把 IP 地址捆绑到它的套接字上，内核就把客户端发送的 SYN 的目的 IP 地址作为服务器端的源 IP 地址。

在地址使用方面有下面一些限制：

在进程所运行的机器上，指定的地址必须有效，不能指定其他机器的地址;

地址必须和创建套接字时的地址族所支持的格式相匹配;

端口号必须不小于1024，除非该进程具有相应的特权(超级用户);

一般只有套接字端点能够与地址绑定，尽管有些协议允许多重绑定;

listen 函数

在编写服务器程序时需要使用监听函数 listen 。服务器进程不知道要与谁连接，因此，它不会主动地要求与某个进程连接，只是一直监听是否有其他客户进程与之连接，然后响应该连接请求，并对它做出处理，一个服务进程可以同时处理多个客户进程的连接。listen 函数描述如下：

/*
* 函数功能：接收连接请求；
* 函数原型：
*/
#include <sys/socket.h>
int listen(int sockfd, int backlog);//若成功则返回0，若出错则返回-1；
/*
* sockfd是套接字描述符；
* backlog是该进程所要入队请求的最大请求数量；
*/

listen 函数仅由 TCP 服务器调用，它有以下两种作用：

当 socket 函数创建一个套接字时，若它被假设为一个主动套接字，即它是一个将调用connect 发起连接的客户端套接字。listen 函数把一个未连接的套接字转换成一个被动套接字，指示内核应该接受指向该套接字的连接请求;

listen 函数的第二个参数规定内核应该为相应套接字排队的最大连接个数;

listen 函数一般应该在调用socket 和bind 这两个函数之后，并在调用 accept 函数之前调用。内核为任何一个给定监听套接字维护两个队列：

未完成连接队列，每个这样的 SYN 报文段对应其中一项：已由某个客户端发出并到达服务器，而服务器正在等待完成相应的 TCP 三次握手过程。这些套接字处于 SYN_REVD 状态;

已完成连接队列，每个已完成 TCP 三次握手过程的客户端对应其中一项。这些套接字处于 ESTABLISHED 状态;

accept 函数

accept 函数由 TCP 服务器调用，用于从已完成连接队列队头返回下一个已完成连接。如果已完成连接队列为空，那么进程被投入睡眠。该函数的返回值是一个新的套接字描述符，返回值是表示已连接的套接字描述符，而第一个参数是服务器监听套接字描述符。一个服务器通常仅仅创建一个监听套接字，它在该服务器的生命周期内一直存在。内核为每个由服务器进程接受的客户连接创建一个已连接套接字(表示 TCP 三次握手已完成)，当服务器完成对某个给定客户的服务时，相应的已连接套接字就会被关闭。该函数描述如下：

/* 函数功能：从已完成连接队列队头返回下一个已完成连接；若已完成连接队列为空，则进程进入睡眠；
* 函数原型：
*/
int accept(int sockfd, struct sockaddr *cliaddr, socklen_t *addrlen);//返回值：若成功返回套接字描述符，出错返回-1；
/*
* 说明：
* 参数 cliaddr 和 addrlen 用来返回已连接的对端（客户端）的协议地址；
*
* 该函数返回套接字描述符，该描述符连接到调用connect函数的客户端；
* 这个新的套接字描述符和原始的套接字描述符sockfd具有相同的套接字类型和地址族，而传给accept函数的套接字描述符sockfd没有关联到这个链接，
* 而是继续保持可用状态并接受其他连接请求；
* 若不关心客户端协议地址，可将cliaddr和addrlen参数设置为NULL，否则，在调用accept之前，应将参数cliaddr设为足够大的缓冲区来存放地址，
* 并且将addrlen设为指向代表这个缓冲区大小的整数指针；
* accept函数返回时，会在缓冲区填充客户端的地址并更新addrlen所指向的整数为该地址的实际大小；
*
* 若没有连接请求等待处理，accept会阻塞直到一个请求到来；

fork 和 exec 函数

/* 函数功能：创建子进程；
* 返回值：
* （1）在子进程中，返回0；
* （2）在父进程中，返回新创建子进程的进程ID；
* （3）若出错，则范回-1；
* 函数原型：
*/
#include <unistd.h>
pid_t fork(void);
/* 说明：
* 该函数调用一次若成功则返回两个值：
* 在调用进程（即父进程）中，返回新创建进程（即子进程）的进程ID；
* 在子进程返回值是0；
* 因此，可以根据返回值判断进程是子进程还是父进程；
*/
/* exec 序列函数 */
/*
* 函数功能：把当前进程替换为一个新的进程，新进程与原进程ID相同；
* 返回值：若出错则返回-1，若成功则不返回；
* 函数原型：
*/
#include <unistd.h>
int execl(const char *pathname, const char *arg, ...);
int execv(const char *pathnam, char *const argv[]);
int execle(const char *pathname, const char *arg, ... , char *const envp[]);
int execve(const char *pathnam, char *const argv[], char *const envp[]);
int execlp(const char *filename, const char *arg, ...);
int execvp(const char *filename, char *const argv[]);
/* 6 个函数的区别如下：
* （1）待执行的程序文件是文件名还是由路径名指定；
* （2）新程序的参数是一一列出还是由一个指针数组来引用；
* （3）把调用进程的环境传递给新程序还是给新程序指定新的环境；
*/

exec 6个函数在函数名和使用语法的规则上都有细微的区别，下面就从可执行文件查找方式、参数传递方式及环境变量这几个方面进行比较。

查找方式：前4个函数的查找方式都是完整的文件目录路径 pathname ，而最后两个函数(也就是以p结尾的两个函数)可以只给出文件名 filename，系统就会自动按照环境变量 “$PATH” 所指定的路径进行查找。

参数传递方式：exec 序列函数的参数传递有两种方式：一种是逐个列举的方式，而另一种则是将所有参数整体构造指针数组传递。在这里是以函数名的第5位字母来区分的，字母为 “l”(list)的表示逐个列举参数的方式，其语法为 const char *arg;字母为 “v”(vertor)的表示将所有参数整体构造指针数组传递，其语法为 char *const argv[]。读者可以观察 execl()、execle()、execlp() 的语法与 execv()、execve()、execvp() 的区别。这里的参数实际上就是用户在使用这个可执行文件时所需的全部命令选项字符串(包括该可执行程序命令本身)。要注意的是，这些参数必须以NULL结束。

环境变量：exec 序列函数可以默认系统的环境变量，也可以传入指定的环境变量。这里以 “e”(environment)结尾的两个函数 execle() 和 execve() 就可以在 envp[] 中指定当前进程所使用的环境变量。

表 1 exec 序列函数的总结
前4位统一为：exec
第5位 l：参数传递为逐个列举方式 execl、execle、execlp
v：参数传递为构造指针数组方式 execv、execve、execvp
第6位 e：可传递新进程环境变量 execle、execve
p：可执行文件查找方式为文件名 execlp、execvp

其关系如下图：

并发服务器

当要求一个服务器同时为多个客户服务时，需要并发服务器。TCP 并发服务器，它们为每个待处理的客户端连接调用 fork 函数派生一个子进程。当一个连接建立时，accept 返回，服务器接着调用 fork 函数，然后由子进程服务客户端，父进程则等待另一个连接，此时，父进程必须关闭已连接套接字。

close 和 shutdown 函数

当要关闭套接字时，可使用 close 和 shutdown 函数，其描述如下：

/* 函数功能：关闭套接字，若是在 TCP 协议中，并终止 TCP 连接；
* 返回值：若成功则返回0，若出错则返回-1；
* 函数原型：
*/
#include <unistd.h>
int close(int sockfd);
/*
* 函数功能：关闭套接字上的输入或输出；
* 返回值：若成功则返回0，若出错返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int shutdown(int sockfd, int how);
/*
* 说明：
* sockfd表示待操作的套接字描述符；
* how表示具体操作，取值如下：
* （1）SHUT_RD 关闭读端，即不能接收数据
* （2）SHUT_WR 关闭写端，即不能发送数据
* （3）SHUT_RDWR 关闭读、写端，即不能发送和接收数据
*
*/

getsockname 和 getpeername 函数

为了获取已绑定到套接字的地址，我们可以调用函数 getsockname 来实现：

/*
* 函数功能：获取已绑定到一个套接字的地址；
* 返回值：若成功则返回0，若出错则返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int getsockname(int sockfd, struct sockaddr *addr, socklen_t *alenp);
/*
* 说明：
* 调用该函数之前，设置alenp为一个指向整数的指针，该整数指定缓冲区sockaddr的大小；
* 返回时，该整数会被设置成返回地址的大小，如果该地址和提供的缓冲区长度不匹配，则将其截断而不报错；
*/
/*
* 函数功能：获取套接字对方连接的地址；
* 返回值：若成功则返回0，若出错则返回-1；
* 函数原型：
*/
#include <sys/socket.h>
int getpeername(int sockfd, struct sockaddr *addr, socklen_t *alenp);
/*
* 说明：
* 该函数除了返回对方的地址之外，其他功能和getsockname一样；
*/

发表于 2016-11-13 19:16 bolang100 阅读(403) 评论(0) 编辑收藏举报