JasonJian

寻得本性,自得其乐

导航

Linux网络编程入门

网络程序和普通的程序最大的区别是什么?

最大的区别是网络程序是由两个部分组成的--客户端和服务器端


谁是客户端

客户端在网络程序中,如果一个程序主动和外面的程序通信,那么我们把这个程序称为客户端程序。 比如我们使用ftp程序从另外一个地方获取文件的时候,是我们的ftp程序主动同外面进行通信(获取文件), 所以这个地方我们的ftp程序就是客户端程序。


谁是服务端

和客户端相对应的程序即为服务端程序。被动的等待外面的程序来和自己通讯的程序称为服务端程序。比如上面的文件获取中,另外一个地方的程序就是服务端,我们从服务端获取文件过来。


互为客户和服务端

实际生活中有些程序是互为服务和客户端。在这种情况项目, 一个程序既为客户端也是服务端。


常用的命令

由于网络程序是有两个部分组成,所以在调试的时候比较麻烦,为此我们有必要知道一些常用的网络命令


netstat
命令netstat是用来显示网络的连接,路由表和接口统计等网络的信息。netstat有许多的选项。我们常用的选项是-na 用来显示详细的网络状态。至于其它的选项我们可以使用帮助手册获得详细的情况。


telnet
telnet是一个用来登录远程的程序,但是我们完全可以用这个程序来调试我们的服务端程序的。比如我们的服务器程序在监听8888端口,我们可以用telnet localhost 8888 来查看服务端的状况。


ping

ping 程序用来判断网络的状态是否正常,最经常的一个用法是ping 192。168。0。1,表示我们想查看到192。168。0。1的硬件连接是否正常


TCP/UDP介绍

TCP(Transfer Control Protocol)传输控制协议是一种面向连接的协议, 当我们的网络程序使用这个协议的时候,网络可以保证我们的客户端和服务端的连接是可靠的,安全的。


UDP(User Datagram Protocol)用户数据报协议是一种非面向连接的协议,这种协议并不能保证我们的网络程序的连接是可靠的,所以我们现在编写的程序一般是采用TCP协议的。


初等网络函数(TCP)

Linux系统是通过提供套接字(socket)来进行网络编程的。网络程序通过socket和其它几个函数的调用,会返回一个 通讯的文件描述符,我们可以将这个描述符看成普通的文件的描述符来操作,这就是linux的设备无关性的好处。
我们可以通过向描述符读写操作实现网络之间的数据交流。


socket函数

原型及参数
int socket(int domain, int type,int protocol)

  • domain:说明我们网络程序所在的主机采用的通讯协族(AF_UNIXAF_INET等)。AF_UNIX只能够用于单一的Unix 系统进程间通信,而AF_INET是针对Internet的,因而可以允许在远程主机之间通信(当我们 man socket时发现 domain可选项是 PF_*而不是AF_*,因为glibcposix的实现所以用PF代替了AF,不过我们都可以使用的)。

  • type:我们网络程序所采用的通讯协议(SOCK_STREAMSOCK_DGRAM等),SOCK_STREAM表明我们用的是TCP 协议,这样会提供按顺序的,可靠,双向,面向连接的比特流。SOCK_DGRAM 表明我们用的是UDP协议,这样只会提供定长的,不可靠,无连接的通信。

  • protocol:由于我们指定了type,所以这个地方我们一般只要用0来代替就可以了 socket为网络通讯做基本的准备。成功时返回文件描述符,失败时返回-1,看errno可知道出错的详细情况。


bind函数

原型及参数
int bind(int sockfd, struct sockaddr *my_addr, int addrlen)

  • sockfd:是由socket调用返回的文件描述符。
  • addrlen:是sockaddr结构的长度。
  • my_addr:是一个指向sockaddr的指针。 在中有 sockaddr的定义
struct sockaddr{
unisgned shortas_family;
char sa_data[14];
};

不过由于系统的兼容性,我们一般不用这个头文件,而使用另外一个结构(struct sockaddr_in) 来代替。在中有sockaddr_in的定义

struct sockaddr_in{
    unsigned shortsin_family; 
    unsigned short intsin_port;
    struct in_addrsin_addr;
    unsigned charsin_zero[8];
}
  • sin_family一般为AF_INET,我们主要使用Internet。
  • sin_addr设置为INADDR_ANY表示可以和任何的主机通信,
  • sin_port是我们要监听的端口号。sin_zero[8]是用来填充的。

bind将本地的端口同socket返回的文件描述符捆绑在一起。成功是返回0,失败的情况和socket一样


listen 函数

listen函数将bind的文件描述符变为监听套接字。返回的情况和bind一样。

int listen(int sockfd,int backlog)

  • sockfd:是bind后的文件描述符。
  • backlog:设置请求排队的最大长度。当有多个客户端程序和服务端相连时, 使用这个表示可以介绍的排队长度。

accept函数

函数原型及参数

int accept(int sockfd, struct sockaddr *addr,int *addrlen)

  • sockfd:是listen后的文件描述符。

  • addr,addrlen是用来给客户端的程序填写的,服务器端只要传递指针就可以了。 bind,listen和accept是服务器端用的函数


accept调用时,服务器端的程序会一直阻塞到有一个 客户程序发出了连接。 accept成功时返回最后的服务器端的文件描述符,这个时候服务器端可以向该描述符写信息了。 失败时返回-1。


connect函数

函数原型及参数

int connect(int sockfd, struct sockaddr * serv_addr,int addrlen)

  • sockfd:socket返回的文件描述符。
  • serv_addr:储存了服务器端的连接信息。其中sin_add是服务端的地址
  • addrlen:serv_addr的长度

connect函数是客户端用来同服务端连接的。成功时返回0,sockfd是同服务端通讯的文件描述符 失败时返回-1。


网络程序建立步骤

总的来说网络程序是由两个部分组成的--客户端和服务器端。它们的建立步骤一般是:
服务器端

  • socket-->bind-->listen-->accept

客户端

  • socket-->connect

服务器和客户机的信息函数

转换和网络方面的信息函数。


字节转换函数

在网络上面有着许多类型的机器,这些机器在表示数据的字节顺序是不同的, 比如i386芯片是低字节在内存地址的低端,高字节在高端,而alpha芯片却相反。 为了统一起来,在Linux下面,有专门的字节转换函数。

unsigned longint htonl(unsigned longint hostlong)
unsigned short int htons(unisgned short int hostshort)
unsigned longint ntohl(unsigned longint netlong)
unsigned short int ntohs(unsigned short int netshort)

在这四个转换函数中,h 代表host, n 代表 network。s 代表short, l 代表long。
第一个函数的意义是将本机器上的long数据转化为网络上的long。 其他几个函数的意义也差不多。


IP和域名的转换

在网络上标志一台机器可以用IP或者是用域名。那么我们怎么去进行转换呢?

struct hostent *gethostbyname(const char *hostname)
struct hostent *gethostbyaddr(const char *addr,int len,int type)

struct hostent的定义

struct hostent{
char *h_name;/* 主机的正式名称*/
char *h_aliases;/* 主机的别名 */
inth_addrtype; /* 主机的地址类型AF_INET*/
inth_length; /* 主机的地址长度对于IP4 是4字节32位*/
char **h_addr_list;/* 主机的IP地址列表 */
}

#define h_addr h_addr_list[0]/* 主机的第一个IP地址*/


gethostbyname可以将机器名(如 linux.yessun.com)转换为一个结构指针。在这个结构里面储存了域名的信息
gethostbyaddr可以将一个32位的IP地址(C0A80001)转换为结构指针。
这两个函数失败时返回NULL 且设置h_errno错误变量,调用h_strerror()可以得到详细的出错信息


字符串的IP和32位的IP转换。

在网络上面我们用的IP都是数字加点(192.168.0.1)构成的, 而在struct in_addr结构中用的是32位的IP,我们上面那个32位IP(C0A80001)是的192.168.0.1 为了转换我们可以使用下面两个函数

int inet_aton(const char *cp,struct in_addr *inp)
char *inet_ntoa(struct in_addr in)

函数里面 a 代表 ascii, n 代表network。第一个函数表示将a.b.c.d的IP转换为32位的IP,存储在 inp指针里面。第二个是将32位IP转换为a。b。c。d的格式。


服务信息函数

在网络程序里面我们有时候需要知道端口。IP和服务信息。这个时候我们可以使用以下几个函数

int getsockname(int sockfd,struct sockaddr *localaddr,int *addrlen)
int getpeername(int sockfd,struct sockaddr *peeraddr, int *addrlen)
struct servent *getservbyname(const char *servname,const char *protoname)
struct servent *getservbyport(int port,const char *protoname)
struct servent
{
    char *s_name;/* 正式服务名 */
    char **s_aliases;/* 别名列表 */ 
    int s_port; /* 端口号 */
    char *s_proto; /* 使用的协议 */
}

一般我们很少用这几个函数。对应客户端,当我们要得到连接的端口号时在connect调用成功后使用可得到系统分配的端口号。对于服务端,我们用INADDR_ANY填充后,为了得到连接的IP我们可以在accept调用成功后 使用而得到IP地址。在网络上有许多的默认端口和服务,比如端口21对ftp80对应WWW。为了得到指定的端口号的服务 我们可以调用第四个函数,相反为了得到端口号可以调用第三个函数。


完整的读写函数

一旦我们建立了连接,我们的下一步就是进行通信了。在Linux下面把我们前面建立的通道看成是文件描述符,
这样服务器端和客户端进行通信时候,只要往文件描述符里面读写东西了。 就象我们往文件读写一样。


写函数write

ssize_t write(int fd,const void *buf,size_t nbytes)

write函数将buf中的nbytes字节内容写入文件描述符fd。成功时返回写的字节数。失败时返回-1。 并设置errno变量。


在网络程序中,当我们向套接字文件描述符写时有两种可能。

  • write的返回值大于0,表示写了部分或者是全部的数据。
  • 返回的值小于0,此时出现了错误。我们要根据错误类型来处理。
    -- 如果错误为EINTR表示在写的时候出现了中断错误。
    -- 如果为EPIPE表示网络连接出现了问题(对方已经关闭了连接)。

读函数read

ssize_t read(int fd,void *buf,size_t nbyte), read函数是负责从fd中读取内容。当读成功时,read返回实际所读的字节数,如果返回的值是0 表示已经读到文件的结束了,小于0表示出现了错误。

  • 如果错误为EINTR说明读是由中断引起的,
  • 如果是ECONNREST表示网络连接出了问题。

数据的传递

有了上面的两个函数,我们就可以向客户端或者是服务端传递数据了。比如我们要传递一个结构。可以使用如下方式

/*客户端向服务端写 */
struct my_struct my_struct_client;
write(fd,(void *)&my_struct_client,sizeof(struct my_struct);
/* 服务端的读*/
char buffer[sizeof(struct my_struct)];
struct *my_struct_server;
read(fd,(void *)buffer,sizeof(struct my_struct));
my_struct_server=(struct my_struct *)buffer;

在网络上传递数据时我们一般都是把数据转化为char类型的数据传递。接收的时候也是一样的 注意的是我们没有必要在网络上传递指针(因为传递指针是没有任何意义的,我们必须传递指针所指向的内容)


用户数据报发送(UDP)

我们前面已经学习网络程序的一个很大的部分,由这个部分的知识,我们实际上可以写出大部分的基于TCP协议的网络程序了。现在在 Linux下的大部分程序都是用我们上面所学的知识来写的。我们可以去找一些源程序来参考一下。


recvfrom和sendto函数

int recvfrom(int sockfd,void *buf,int len,unsigned int flags,struct sockaddr * from int *fromlen)
int sendto(int sockfd,const void *msg,int len,unsigned int flags,struct sockaddr *to int tolen)

sockfd,buf,len的意义和read,write一样,分别表示套接字描述符,发送或接收的缓冲区及大小。


recvfrom负责从sockfd接收数据,如果from不是NULL,那么在from里面存储了信息来源的情况,如果对信息的来源不感兴趣,可以将from和fromlen设置为NULL。sendto负责向to发送信息。此时在to里面存储了收信息方的详细资料。


高级套接字函数

在前面的几个部分里面,我们已经学会了怎么样从网络上读写信息了。前面的一些函数(read,write)是网络程序里面最基本的函数。也是最原始的通信函数。在这一章里面,我们一起来学习网络通信的高级函数。这一章我们学习另外几个读写函数。


recv和send函数

recv和send函数提供了和read和write差不多的功能。不过它们提供 了第四个参数来控制读写操作。

int recv(int sockfd,void *buf,int len,int flags)
int send(int sockfd,void *buf,int len,int flags)

前面的三个参数和read,write一样,第四个参数可以是0或者是以下的组合

  • MSG_DONTROUTE:不查找路由表
  • MSG_OOB:接受或者发送带外数据
  • MSG_PEEK:查看数据,并不从系统缓冲区移走数据
  • MSG_WAITALL:等待所有数据
  • MSG_DONTROUTE:是send函数使用的标志。这个标志告诉IP协议。目的主机在本地网络上面,没有必要查找路由表。这个标志一般用网络诊断和路由程序里面。
  • MSG_OOB:表示可以接收和发送带外的数据。关于带外数据我们以后会解释的。
  • MSG_PEEK:是recv函数的使用标志,表示只是从系统缓冲区中读取内容,而不清除系统缓冲区的内容。这样下次读的时候,仍然是一样的内容。一般在有多个进程读写数据时可以使用这个标志。
  • MSG_WAITALL是recv函数的使用标志,表示等到所有的信息到达时才返回。使用这个标志的时候recv回一直阻塞,直到指定的条件满足,或者是发生了错误。

  • 当读到了指定的字节时,函数正常返回。返回值等于len
  • 当读到了文件的结尾时,函数正常返回。返回值小于len
  • 当操作发生错误时,返回-1,且设置错误为相应的错误号(errno)

如果flags为0,则和read,write一样的操作。还有其它的几个选项,不过我们实际上用的很少


recvfrom和sendto

这两个函数一般用在非套接字的网络程序当中(UDP),我们已经在前面学会了。


recvmsg和sendmsg 函数

recvmsg和sendmsg可以实现前面所有的读写函数的功能。

int recvmsg(int sockfd,struct msghdr *msg,int flags)
int sendmsg(int sockfd,struct msghdr *msg,int flags)
struct msghdr
{
    void *msg_name;
    int msg_namelen;
    struct iovec *msg_iov;
    int msg_iovlen;
    void *msg_control;
    int msg_controllen;
    int msg_flags;
}
struct iovec
{
    void *iov_base; /* 缓冲区开始的地址*/
    size_t iov_len; /* 缓冲区的长度*/
}
  • msg_namemsg_namelen当套接字是非面向连接时(UDP),它们存储接收和发送方的地址信息。
  • msg_name实际上是一个指向struct sockaddr的指针,
  • msg_namelen是结构的长度。当套接字是面向连接时,这两个值应设为NULL
  • msg_iovmsg_iovlen指出接受和发送的缓冲区内容。msg_iov是一个结构指针,msg_iovlen指出这个结构数组的大小。
  • msg_controlmsg_controllen这两个变量是用来接收和发送控制数据时的 msg_flags指定接受和发送的操作选项和 recv,send的选项一样

套接字的关闭

关闭套接字有两个函数close和shutdown。用close时和我们关闭文件一样。


shutdown函数

int shutdown(int sockfd,int howto)

TCP连接是双向的(是可读写的),当我们使用close时,会把读写通道都关闭,有时侯我们希望只关闭一个方向,这个时候我们可以使用shutdown。针对不同的howto,系统回采取不同的关闭方式。
howto=0这个时候系统会关闭读通道。但是可以继续往接字描述符写。
howto=1关闭写通道,和上面相反,着时候就只可以读了。
howto=2关闭读写通道,和close一样 在多进程程序里面,如果有几个子进程共享一个套接字时,如果我们使用shutdown,那么所有的子进程都不能够操作了,这个时候我们只能够使用close来关闭子进程的套接字描述符。


TCP/IP协议


网络传输分层

如果你考过计算机等级考试,那么你就应该已经知道了网络传输分层这个概念。在网络上,人们为了传输数据时的方便,把网络的传输分为7个层次。分别是:应用层,表示层,会话层,传输层,网络层,数据链路层和物理层。分好了层以后,传输数据时,上一层如果要数据的话,就可以直接向下一层要了,而不必要管数据传输的细节。下一层也只向它的上一层提供数据, 而不要去管其它东西了。如果你不想考试,你没有必要去记这些东西的。只要知道是分层的,而且各层的作用不同。


IP协议

IP协议是在网络层的协议。它主要完成数据包的发送作用。 详细描述略


ICMP协议

ICMP是消息控制协议,也处于网络层。在网络上传递IP数据包时,如果发生了错误,那么就会用ICMP协议来报告错误。关于ICMP协议的详细情况可以查看 RFC792


UDP协议

UDP协议是建立在IP协议基础之上的,用在传输层的协议。UDP和IP协议一样是不可靠的数据报服务。


TCP

TCP协议也是建立在IP协议之上的,不过TCP协议是可靠的。按照顺序发送的。TCP的数据结构比前面的结构都要复杂。

关于TCP的报文内容请参考这里


套接字选项

有时候我们要控制套接字的行为(如修改缓冲区的大小),这个时候我们就要控制套接字的选项了。


getsockopt和setsockopt函数

int getsockopt(int sockfd,int level,int optname,void *optval,socklen_t *optlen)
int setsockopt(int sockfd,int level,int optname,const void *optval,socklen_t *optlen)
  • level指定控制套接字的层次。可以取三种值:

-- SOL_SOCKET:通用套接字选项。
-- IPPROTO_IP:IP选项。
-- IPPROTO_TCP:TCP选项。

  • optname指定控制的方式(选项的名称),我们下面详细解释optval获得或者是设置套接字选项。根据选项名称的数据类型进行转换

套接字选项名称及类型

SO_BROADCAST 允许发送广播数据int
SO_DEBUG允许调试int
SO_DONTROUTE 不查找路由int
SO_ERROR获得套接字错误int
SO_KEEPALIVE 保持连接int
SO_LINGER 延迟关闭连接 struct linger
SO_OOBINLINE 带外数据放入正常数据流int
SO_RCVBUF 接收缓冲区大小int
SO_SNDBUF 发送缓冲区大小int
SO_RCVLOWAT接收缓冲区下限int
SO_SNDLOWAT发送缓冲区下限int
SO_RCVTIMEO接收超时struct timeval
SO_SNDTIMEO发送超时struct timeval
SO_REUSERADDR允许重用本地地址和端口int
SO_TYPE 获得套接字类型int
SO_BSDCOMPAT 与BSD系统兼容int


IP(IPPROTO_IP)选项

IP_HDRINCL在数据包中包含IP首部 int
IP_OPTINOSIP首部选项int
IP_TOS服务类型
IP_TTL生存时间int


TCP选项

TCP_MAXSEGTCP最大数据段的大小int
TCP_NODELAY不使用Nagle算法 int


ioctl函数

ioctl可以控制所有的文件描述符的情况,这里介绍一下控制套接字的选项。

int ioctl(int fd,int req, ...)

ioctl的控制选项

SIOCATMARK是否到达带外标记int
FIOASYNC异步输入/输出标志 int
FIONREAD缓冲区可读的字节数int


总结

原始套接字和一般的套接字不同的是以前许多由系统做的事情,现在要由我们自己来做了。 不过这里面是不是有很多的乐趣呢。当我们创建了一个 TCP套接字的时候,我们只是负责把我们要发送的内容(buffer)传递给了系统。 系统在收到我们的数据后,会自动的调用相应的模块给数据加上TCP 头部,然后加上IP头部。 再发送出去。而现在是我们自己创建各个的头部,系统只是把它们发送出去。 在上面的实例中,由于我们要修改我们的源IP地址, 所以我们使用了setsockopt函数,如果我们只是修改TCP数据,那么IP数据一样也可以由系统来创建的。


后记

总算完成了网络编程这个教程。算起来我差不多写了一个星期,原来以为写这个应该是一件不难的事,做起来才知道原来有很多的地方都比我想象的要难。我还把很多的东西都省略掉了不过写完了这篇教程以后,我好象对网络的认识又增加了一步。如果我们只是编写一般的网络程序还是比较容易的,但是如果我们想写出比较好的网络程序我们还有着遥远的路要走。


网络程序一般的来说都是多进程加上多线程的。为了处理好他们内部的关系,我们还要学习进程之间的通信。在网络程序里面有着许许多多的突发事件,为此我们还要去学习更高级的 事件处理知识。现在的信息越来越多了,为了处理好这些信息,我们还要去学习数据库。


如果要编写出有用的黑客软件,我们还要去熟悉各种网络协议。总之我们要学的东西还很多很多。看一看外国的软件水平,看一看印度的软件水平,宝岛台湾的水平,再看一看我们自己的 软件水平大家就会知道了什么叫做差距。


我们现在用的软件有几个是我们中国人自己编写的。不过大家不要害怕,不用担心。只要我们还是清醒的,还能够认清我们和别人的差距, 我们就还有希望。 毕竟我们现在还年轻。只要我们努力,认真的去学习,我们一定能够学好的。我们就可以追上别人直到超过别人!


相信一点:
别人可以做到的我们一样可以做到,而且可以比别人做的更好!
勇敢的年轻人,为了我们伟大祖国的软件产业,为了祖国的未来,努力的去奋斗吧!祖国会记住你们的!

posted on 2014-08-04 11:41  JasonJian  阅读(238)  评论(0编辑  收藏  举报