数据在OSI模型中各层之间的格式
数据链路层
封装成帧
- 封装成帧(framing)就是在一段数据的前后分别添加首部和尾部,然后就构成了一个帧。确定帧的界限。
- 首部和尾部的一个重要作用就是进行帧定界。
**用控制字符进行帧定界的方法举例 **
试想:帧还未发送完,发送端出了问题,只能重发该帧,接收端却直接收了前面的“半截子帧”,它会抛弃吗?
答案是会抛弃,接收端直接收有成对的帧头和帧尾的数据。
透明传输
若数据中存在与帧结束符相同的数据,那么计算机会误以为该数据即为帧结束符,而造成错误。
解决透明传输问题
- 发送端的数据链路层在数据中出现控制字符“SOH”或“EOT”的前面插入一个转义字符“ESC”(其十六进制编码是 1B)。
- 字节填充(byte stuffing)或字符填充(character stuffing)——接收端的数据链路层在将数据送往网络层之前删除插入的转义字符。
- 如果转义字符也出现数据当中,那么应在转义字符前面插入一个转义字符。当接收端收到连续的两个转义字符时,就删除其中前面的一个。
网络层
IP 数据报
1.IP 数据报的格式
- 一个 IP 数据报由首部和数据两部分组成。(数据报也可以说是数据包)
- 首部的前一部分是固定长度,共 20 字节,是所有 IP 数据报必须具有的。
- 在首部的固定部分的后面是一些可选字段,其长度是可变的。
2.IP 数据报首部的固定部分中的各字段
从图中可看到,数据报首部可分为固定部分和可变部分,固定部分为了五行,每行32位即4个字节。
-
版本——占 4 位(第一行四个字节中0~3位),指 IP 协议的版本该 IP 协议的版本号为 4 (即 IPv4);
-
首部长度——占 4 位(第一行四个字节中4~7位),表示首部总的长度(固定+可变部分);可表示的最大数值是 15 个单位(一个单位为 4 字节)因此 IP 的首部长度的最大值是 60 字节。
-
区分服务——占 8 位(第一行四个字节中8~15位),区分服务。即该段设置了数据报的优先程度,若要想实现数据报优先传输还需要在路由器端配置相应的区分服务设置。只有在使用区分服务(DiffServ)时,这个字段才起作用。在一般的情况下都不使用这个字段 。
-
总长度——占 16 位(第一行四个字节中16~31位),指首部和数据之和的长度,单位为字节,因此数据报的最大长度为 65535 字节。总长度必须不超过最大传送单元 MTU。
-
标识(identification)——占 16 位(第二行四个字节中1~15位),它是一个计数器,用来产生数据报的标识,即每产生一个数据报贴上一个标识。
-
标志(flag)——占 3 位(第二行四个字节中16~18位),目前只有前两位有意义。
标志字段的最低位是 MF (More Fragment)。MF = 1 表示后面“还有分片”。MF = 0 表示最后一个分片。
标志字段中间的一位是 DF (Don't Fragment) 。只有当 DF = 0 时才允许分片。即标志表示该数据报是否分片了?是第几个分片?
-
片偏移——占12 位(第二行四个字节19~31位)指出:较长的分组在分片后某片在原分组中的相对位置。片偏移以 8 个字节为偏移单位。
IP 数据报分片举例
以太网传输的数据报数据部分一般都是1500个字节。如果有个数据报数据部分为3800字节(数据报总长度超过路由器的对大传送单元MTU) 就需要分为若干个数据报片发送。
如图中分为三个数据报片发送,在每个数据报片的首部都要写上原数据报首部的信息,包括目标IP 地址等,并编上号。数据报片的数据部分第一个字节表示偏移,每个数据报片的偏移 = 该报片数据部分的第一个字节号 / 8,如图所示。
-
生存时间——占 8 位(第三行四个字节中0~7位)记为 TTL (Time To Live)数据报在网络中可通过的路由器数的最大值。即计算机发出数据时会附带一个TTL值,该值在数据报每经过一个路由器就自减1,等到某路由器接收到该数据报发现其TTL值变为0时不在中转该数据报,而是将其丢弃并向最初发送者返回一个ICMP报文。TTL的设置可以防止数据报无限循环传输。
TTL简单举例
在命令行窗口尝试与本计算机的默认网关地址通信:ping 172.26.104.1,发现TTL值为255,因为访问的是本计算机的网关在同一网段上,不用经过其他路由器中转便可直接访问(Linux默认TTL值为255);
于是我尝试与美国的某个IP地址通信:ping 207.226.141.205,会得到IP 地址为63.218.56.150的路由器发来的回复:“TTL传输中过期”。说明在通信数据报在传输到该路由器上时TTL值已为0,随后该路由器将通信数据报自行销毁并给最初发出数据者(即本计算机)一个回复。
此外,还可以通过指定TTL的值,观察哪个路由器给计算机回复TTL过期信息,以此来跟踪通信数据报传输过程中途经的路由器:
ping 207.226.141.205 -i 1
指定通过 “-i 1“ 指定TTL值为1,即数据报中转到第一个路由器中就销毁了。
可以看到本计算机向IP地址:207.226.141.205,发出的包含通信请求的数据报经过的第一个路由器IP地址为本计算机的网关:172.26.104.1;第二个路由器的IP地址为10.0.2.37 。
- 协议——占 8 位(第三行四个字节8~15位)字段指出此数据报携带的数据使用何种协议。
协议字段里一般使用协议号来标识相关协议,比如其中一部分为:
- 首部校验和——占 16 位(第三行四个字节16~31位)字段只检验数据报的首部不检验数据部分,目的是验证数据报的首部有无错误。
检验过程
好比寄快递,发件方在快递单上写上收件人、地址、电话,然后根据这些信息得到一个校验和并写在快递单上;快递员收到这个快递之后检查对应的信息是否出错,出错了就不发了,并不在乎快递内的东西是否出错。也就是说该字段仅检查数据报的首部有无错误不关心数据部分。
- 第四行的四个字节表示:源地址;
- 第五行的四个字节表示:目的地址;
3.IP 数据报首部的可变部分
- IP 首部的可变部分就是一个选项字段,用来支持排错、测量以及安全等措施,内容很丰富。
- 选项字段的长度可变,从 1 个字节到 40 个字节不等,取决于所选择的项目。
- 增加首部的可变部分是为了增加 IP 数据报的功能,但这同时也使得 IP 数据报的首部长度成为可变的。这就增加了每一个路由器处理数据报的开销。
- 实际上这些选项很少被使用。
4.抓包验证
这里所说的“抓包”指的是计算机通信的数据报,也可以叫做数据包。
- 首先回顾一下数据报的格式:
- 使用抓包软件Wireshark抓包如下:
选中某一数据包之后,下面的四栏选项显示的是数据包的具体内容,从上往下分别是:数据帧信息、数据链路层信息、网络层信息、运输层信息。
- 打开数据链路层信息栏:
可以发现数据链路层添加的内容:目标MAC地址、源MAC地址、协议类型:在数据链路层指明了网络层使用的协议是IPv4。
- 打开网络层信息栏:
其中:
Version:4表示版本字段,值4表示网络层使用IPv4协议与数据链路层指定的协议类型一致;
Header Length表示首部长度字段,值为20表示数据包首部为20个字节;
Differentiated Services Field表示区分服务字段,它的值0x00表示该数据包默认没有区分服务;
Total Length表示总长度字段,它的值1500表示整个数据包的总长度为1500字节;
Identification表示标识字段,表示该数据包的编号为61121,查看相邻的数据包可发现其标识为61122:
验证了计算机发送数据包时会按顺序给数据包加上连续的标识。
Flags表示标志字段,看看出该数据包并没有分片;
Flagment offset表示片偏移字段,由于数据包没有分片,所以片偏移为0;
Time to live即TTL表示生存时间字段;
Protocol表示协议字段,TCP(6)表示使用该数据包使用TCP协议传输,6为TCP协议的协议号;
Header checksum表示首部检验和字段,validation disabled表示首部检验和验证失败;
Source表示源地址字段;
Destination表示目标地址字段。
传输层
TCP报文段的首部格式
1.1.首部字段详解
-
TCP首部包括20字节的固定首部部分及长度可变的其他选项,所以TCP首部长度可变。20个字节又分为5部分,每部分4个字节32位,如图中的5行,每行表示32位。
-
在传输层,TCP报文段包括:TCP首部和TCP数据部分;在网络层,TCP报文段成为IP数据部分,加上IP首部组成IP数据报;在数据链路层,还要在IP数据报前面加上数据链路层的首部。
- 源端口和目的端口字段——各占 2 字节(16位)。端口是运输层与应用层的服务接口。运输层的复用和分用功能都要通过端口才能实现。
- 序号字段——占 4 字节。TCP 连接中传送的数据流中的每一个字节都编上一个序号。序号字段的值则指的是本报文段所发送的数据的第一个字节的序号。比如分组的第一个数据包由文件的14个字节数据组成,那么该数据包所添加的序号就是1,同理第二个数据包由文件的59个字节数据组成,那么该数据包所添加的序号就是5;
- 确认号字段——占 4 字节,是期望收到对方的下一个报文段的数据的第一个字节的序号。比如接收端收到由文件14个字节数据+TCP首部组成的数据包后,删除首部提取14个字节数据,返回的确认号为5,即告诉发送端下一次应该发送文件的第5个字节及其之后字节组成的数据包过来。
- 数据偏移(即首部长度)——占 4 位,它指出 TCP 报文段的数据起始处距离 TCP 报文段的起始处有多远,也就是TCP首部的长度。“数据偏移”的单位是 32 位字(以 4 字节为计算单位),最大1111表示15x4=60个字节,即表示TCP首部最大长度为60个字节,因此“选项”部分最多40个字节。
- 保留字段——占 6 位,保留为今后使用,但目前应置为 0。
这里的六位二进制位,分别表示不同含义:
-
紧急 URG —— 当 URG = 1 时,表明紧急指针字段有效。它告诉系统此报文段中有紧急数据,应尽快传送(相当于高优先级的数据)。 即URG=1的数据包不用排队直接优先传输。
-
同步 SYN —— 同步 SYN = 1 表示这是一个连接请求或连接接受报文。即A想与B建立连接,发送过去的第一个数据包(第一次握手)中SYN=1;B返回的数据包(第二次握手)中SYN=1表示同意建立连接。
-
确认 ACK —— 只有当 ACK = 1 时确认号字段才有效。当 ACK = 0 时,确认号无效。
ACK是对已接受数据的确认,当A与B还在请求连接阶段,A向B发送的第一个数据包(第一次握手)中ACK=0,无效,所以数据包中不显示,表示还没从B中接收到数据;序号Seq也为0,表示A还未向B发送数据;SYN=1,表示正在建立连接。
同理,B向A返回一个数据包(第二次握手)中,确认号ACK=1,表示B收到了A序号为0的数据包;序号Seq=0,也表示B还未向A发送数据;SYN=1表示同意建立连接。
A再向B发送一个数据包(第三次握手)中,确认号ACK=1,表示A收到了B发出的数据包;序号Seq=1,表示A已向B发送了1个数据包(即第一次握手);SYN=0,表示已建立连接。
以下为计算机打开网页与Web服务器建立连接时抓取的第一个数据包(第一次握手):
可以看到计算机发出的第一个数据包(第一次握手)中,SYN=1,Seq=1,ACK=0无效,所以在蓝色框内只能看到序号Seq,看不到确认号ACK;
以下为抓取的第三个数据包(第三次握手):
计算机发出第二个数据包(第三次握手)中,由于已经同步,建立连接,所以SYN=0,此后ACK都为1,所以蓝色框中可以看到序号Seq和确认号ACK。
所以,抓包时看到大量的SYN数据包,说明计算机在大量建立会话。另外在建立连接(三次握手)时,SYN与ACK的值与正常通讯时不一样。
有一种攻击就是针对建立连接时SYN同步的机制
比如地址为102的计算机B想要与地址为101的计算机A建立连接,B向A发送请求连接数据包,并设置数据包中的源地址为不存在,A收到之后向该不存在的地址发出同意连接的数据包,发送完之后需要等待回复。于是B继续上述操作,以此类推A不断发出同意连接数据包并不断等待,由此大量耗费系统资源。
下图为使用SYN同步攻击软件攻击XP系统过程中,捕获的数据包:
红色框中的地址是攻击软件瞎编的不存在的地址,蓝色框中显示建立的会话全是请求连接的TCP报文。
Land攻击
原理与SYN攻击类似,都是通过不断建立同步SYN会话,耗尽系统资源。不同之处在于,Land攻击发起的请求同步数据包目标地址和源地址都是攻击对象的地址。
可以看到在Land攻击时捕获的数据包,都是请求同步SYN数据包且源地址和目标地址都为攻击对象地址 192.168.80.66 。
- 推送 PSH (PuSH) —— 接收 TCP 收到 PSH = 1 的报文段,就尽快地交付接收应用进程,而不再等到整个缓存都填满了后再向上交付。
- 复位 RST (ReSeT) —— 当 RST = 1 时,表明 TCP 连接中出现严重差错(如由于主机崩溃或其他原因),必须释放连接,然后再重新建立运输连接。
- 终止 FIN (FINis) —— 用来释放一个连接。FIN = 1 表明此报文段的发送端的数据已发送完毕,并要求释放运输连接。
- 窗口字段 —— 占 2 字节,用来让对方设置发送窗口的依据,单位为字节。
如图A要告诉B自己的接收缓存为Y1,B根据A的接收缓存Y1决定发送缓存X2;同理B告诉A自己的接收缓存Y2,A根据B的接收缓存Y2决定自己的发送缓存X1。也就是A/B的接收缓存决定了B/A的发送缓存。
可以看见建立TCP连接时发送的三个数据包(三次握手)的第一个数据包中,Window Size:65535;表示的即是某一连接方的窗口大小。
- 检验和 —— 占 2 字节。检验和字段检验的范围包括首部和数据这两部分。在计算检验和时,要在 TCP 报文段的前面加上 12 字节的伪首部。
- 紧急指针字段 —— 占 16 位,指出在本报文段中紧急数据共有多少个字节(紧急数据放在本报文段数据的最前面)。
-
选项字段 —— 长度可变。TCP 最初只规定了一种选项,即最大报文段长度 MSS (Maximum Segment Size)是 TCP 报文段中的数据字段的最大长度。数据字段加上 TCP 首部才等于整个的 TCP 报文段。
MSS 告诉对方 TCP:“我的缓存所能接收的报文段的数据字段的最大长度是 MSS 个字节。”
其他选项有:窗口扩大选项、时间戳选项、选择确认选项(SACK)。
- 填充字段 —— 这是为了使整个首部长度是 4 字节的整数倍。
1.2.抓包验证
通过抓取计算机访问Web网站过程抓到的数据包,分析验证TCP报文段的结构。
这就是建立TCP连接的“三次握手”过程,可以看到第一个数据包(第一次握手),是计算机给web站点发的,建立会话数据包都是SYN类型的,MSS表示最大数据包,即计算机告诉Web站点我支持的最大数据包容量为1460个字节;
第二个数据包(第二次握手),是Web站点给计算机发的同步数据包,告诉计算机我支持的最大数据包为1460个字节。还告诉计算机Win即Web服务器的发送窗口的缓存最多为60240个字节,当Web服务器发送完60240个数据包之后没有收到确认信息,就停止发送数据包。
第三个数据包(第三次握手),是计算机给Web服务器发送的。Win=65535,表示告诉服务器计算机移动窗口最大缓存为65535个字节,说明计算机最多能接收处理来自Web服务器的65535个字节数据,若Web服务器没有收到确认,就暂停传输数据包,等计算机处理完了再继续发送。
可以看到建立会话的三个数据包,不仅为了测试网络是否通畅,还协商了一些参数。
下面就到正题了,可以看到HTTP协议只用一个数据包就能解决问题。
选中TCP协议可以看到目标端口是80,源端口是1057,序号是1,确认号是1,TCP首部长度是20个字节。
之后便是Web服务器给计算机发送网站数据,其中夹杂着计算机给Web服务器的数据包是否收到的反馈信息。
1.3.TCP首部参数图解:
- 黄色表示TCP报文数据部分,蓝色表示TCP首部。可以看到四段TCP报文中序号Seq都是TCP报文数据部分的第一个字节的编号。因为计算机给Web服务器发送的数据为1203字节,所以Web服务器给计算机发送的三个TCP报文中确认号都是204,表示Web服务器收到了1203个字节数据,让计算机从数据的第204个字节开始发。
- 第五段为计算机给Web服务器发的第二个TCP报文,因为发送的第一个TCP报文已包含1203个字节数据,所以第二个TCP报文发送的数据从204字节开始,所以该报文序号为204;由于收到了Web服务器发的三个TCP报文总计12053个字节的数据,所以该报文的确认号为2054,表示告诉Web服务器,我收到了你传输的1~2053个字节,接着从2054个字节开始给我发数据。
- 这就是确认号和序号怎么来的。