网络编程(一)

  以太网规定,连入网络的所有设备,都必须具有“网卡”接口。数据包必须是从一块网卡,传送到另一块网卡。通过网卡能够使不同的计算机之间连接,从而完成数据通信等功能。网卡的地址,就是数据包的发送地址和接收地址,这叫做 MAC 地址。

  一块网卡怎么会知道另一块网卡的 MAC 地址?    回答:有一种 ARP 协议,可以解决这个问题。这个留到后面介绍,这里只需要知道,以太网数据包必须知道接收方的 MAC 地址,然后才能发送。

  系统怎样才能把数据包准确送到接收方? 回答:以太网采用了一种很“原始”的方式,它不是把数据包准确送到接收方,而是向本网络内所有计算机发送,让每台计算机自己判断,是否为接收方。例如:

 

  1号计算机向 2 号计算机发送一个数据包,同一个子网络的 3 号、4号、5号计算机都会收到这个包。它们读取这个包的“标头”,找到接收方的 MAC 地址,然后与自身的 MAC 地址相比较,如果两者相同,就接受这个包,做进一步处理,否则就丢弃这个包。这种发送方式就叫做“广播”(broadcasting)。

“网络层”出现后,每台计算机有了两种地址,一种是 MAC 地址,另一种是网络地址。两种地址之间没有任何联系,MAC 地址是绑定在网卡上的,网络地址则是管理员分配的,它们只是随机组合在一起。

网络地址帮助我们确定计算机所在的子网络,MAC 地址则将数据包送到该子网络中的目标网卡。因此,从逻辑上可以推断,必定是先处理网络地址,然后再处理 MAC 地址。

互联网上的每一台计算机,都会分配到一个 IP 地址。这个地址分成两个部分,前一部分代表网络,后一部分代表主机。

从 IP 地址中判断两台计算机是否属于同一个子网络,这时候就要用到另一个参数“子网掩码”(subnet mask)。

我们可以通过“子网掩码”来区分哪部分是子网 ID,哪部分为主机 ID。IP 地址和子网掩码中 1 相与“&”即可得到子网 ID,IP 地址和子网掩码中 0 相或 “|”,即可得到主机 ID。

知道“子网掩码”,我们就能判断,任意两个 IP 地址是否处在同一个子网络。方法是将两个 IP 地址与子网掩码分别进行 AND 运算(两个数位都为1,运算结果为1,否则为0),然后比较结果是否相同,如果是的话,就表明它们在同一个子网络中,否则就不是。

IP 协议的作用主要有两个,一个是为每一台计算机分配 IP 地址,另一个是确定哪些地址在同一个子网络。

IP 数据包

根据 IP 协议发送的数据,就叫做 IP 数据包。

以太网数据包只包含 MAC 地址,并没有 IP 地址的栏位。因此将 IP 数据包直接放进以太网数据包的“数据”部分,完全不用修改以太网的规格。

这就是互联网分层结构的好处:上层的变动完全不涉及下层的结构。IP 数据包也分为“标头”和“数据”两个部分。“标头”部分主要包括版本、长度、IP 地址等信息,“数据”部分则是 IP 数据包的具体内容。

ARP协议

因为 IP 数据包是放在以太网数据包里发送的,所以我们必须同时知道两个地址,一个是对方的 MAC 地址,另一个是对方的 IP 地址。通常情况下,对方的 IP 地址是已知的(后文会解释),但是我们不知道它的 MAC 地址。

所以,我们需要一种机制,能够从 IP 地址得到 MAC 地址。

这里分成两种情况。第一种情况,如果两台主机不在同一个子网络,那么事实上没有办法得到对方的 MAC 地址,只能把数据包传送到两个子网络连接处的“网关”(gateway),让网关去处理。

第二种情况,如果两台主机在同一个子网络,那么我们可以用 ARP 协议,得到对方的 MAC 地址。ARP 协议也是发出一个数据包(包含在以太网数据包中),其中包含它所要查询主机的 IP 地址,在对方的 MAC 地址这一栏,填的是 FF:FF:FF:FF:FF:FF,表示这是一个“广播”地址。它所在子网络的每一台主机,都会收到这个数据包,从中取出 IP 地址,与自身的 IP 地址进行比较。如果两者相同,都做出回复,向对方报告自己的 MAC 地址,否则就丢弃这个包。

传输层

“端口”是 0 到 65535 之间的一个整数,正好 16 个二进制位。0到 1023 的端口被系统占用,用户只能选用大于 1023 的端口。不管是浏览网页还是在线聊天,应用程序会随机选用一个端口,然后与服务器的相应端口联系。

“传输层”的功能,就是建立“端口到端口”的通信。相比之下,“网络层”的功能是建立“主机到主机”的通信。只要确定主机和端口,我们就能实现程序之间的交流。因此,Unix 系统就把主机+端口(也就是IP地址+端口号),叫做“套接字”(socket)。

UDP 协议

在数据包中加入端口信息,这就需要新的协议。最简单的实现叫做 UDP 协议,它的格式几乎就是在数据前面,加上端口号。

UDP 数据包,也是由“标头”和“数据”两部分组成。“标头”部分主要定义了发出端口和接收端口,“数据”部分就是具体的内容。然后,把整个 UDP 数据包放入 IP 数据包的“数据”部分,而前面说过,IP 数据包又是放在以太网数据包之中的。

UDP 数据包非常简单,“标头”部分一共只有 8 个字节,总长度不超过 65,535字节,正好放进一个 IP 数据包。

 

TCP 协议

UDP 协议的优点是比较简单,容易实现,但是缺点是可靠性较差,一旦数据包发出,无法知道对方是否收到。

为了解决这个问题,提高网络可靠性,TCP 协议就诞生了。这个协议非常复杂,但可以近似认为,它就是有确认机制的 UDP 协议,每发出一个数据包都要求确认。如果有一个数据包遗失,就收不到确认,发出方就知道有必要重发这个数据包了。

因此,TCP 协议能够确保数据不会遗失。它的缺点是过程复杂、实现困难、消耗较多的资源。

TCP 数据包和 UDP 数据包一样,都是内嵌在 IP 数据包的“数据”部分。TCP 数据包没有长度限制,理论上可以无限长,但是为了保证网络的效率,通常 TCP 数据包的长度不会超过 IP 数据包的长度。

应用层

应用程序收到“传输层”的数据,接下来要进行解读。由于互联网是开放架构,数据来源五花八门,必须事先规定好格式,否则根本无法解读。

“应用层”的作用,就是规定应用程序的数据格式。

举例来说,TCP 协议可以为各种各样的程序传递数据,比如 Email、WWW、FTP 等等。那么,必须有不同协议规定电子邮件、网页、FTP 数据的格式,这些应用程序协议就构成了“应用层”。

这是最高的一层,直接面对用户。它的数据就放在 TCP 数据包的“数据”部分。因此,现在的以太网的数据包就变成下面这样。

 

posted @ 2017-09-07 14:06  c++c鸟  阅读(188)  评论(0编辑  收藏  举报