ebtables和iptables与linux bridge的交互

本文为翻译文，不一定是逐字逐句的翻译，而且中间会加上自己的一点见解，如有理解错误的地方，还请大家指出，我定虚心学习。原文见链接

其中斜体字是自己的理解，建议和ebtables手册和iptables手册一起看。

1.介绍

本文档描述了iptables和 ebtables过滤表如何在基于Linux的网桥上进行交互。

在2.4.x内核上获取桥接防火墙包括修补内核源代码。2.6内核包含ebtables和br-nf代码，所以不需要修补。由于需求很高，2.4版内核的补丁仍然可以在ebtables主页上找到。该BR-NF代码使桥接IP帧/数据包通过iptables的链。该BR-NF代码使桥接IP帧/数据包通过iptables的链。ebtables在以太网层进行过滤，而iptables只对IP数据包进行过滤。

1.弄清楚br-nf代码都做了什么，就明白iptables的规则为什么在bridge上也能够起作用了。
2.这里既然说道iptables只对ip数据包进行过滤，那么，可以这么理解，与ip协议同层的包括arp，802.1q等协议（见linux中/etc/ethertypes列出的），那么这些协议的数据包是不会被iptables过滤的。

应该指出的是，br-nf代码有时会违反TCP/IP网络模型。例如在链路层内执行IP DNAT。要注意的是，我们完全清楚，帧是用于链路层的，而分组是用于网络层的。但是，当我们谈论链路层内的IP数据包时，我们将这些数据称为帧/数据包或数据包/帧。

2.帧如何遍历ebtables链

本节只考虑ebtables，而不是iptables。
首先我们要记住我们在说的是以太网层，也就是tcp/ip模型的1层和2层。
以网桥（工作在以太网层）为目的地的数据包的ip目的地址不一定是网桥所在的计算机。这就是路由器的工作原理（mac目的地址是路由器，ip目的地址才是你想交互的实际的box）。

1.明确一个概念：工作在2层的设备，如网桥，交换机，意味着他们只和数据包的二层的头交互，并不意味着它一定有mac地址（以前我是这么认为的）。
2.一个帧中的目的mac地址，只是数据帧下一跳的目的地，并不一定是它的最终目的地，最终目的地由目的ip决定。3.box我没有翻译，就把它理解为可以接受ip数据包的黑匣子就可以

Figure2a.数据帧穿越网桥的方案

在linux的桥代码中有6个hook点，BROUTING是专门为ebtables新增的。

Figure2b.以太网桥接的hook点

hook是网络代码中的特定位置，其它代码可以将自己绑定到该位置，从而处理通过该位置的分组/帧。例如，内核模块负责将ebtables的FORWARD链绑定掉桥的FORWARD点。这是模块被加载到内核或者启动时完成的。
请注意，ebtables的BROUTING和PREOUTING链在桥接决定之前被遍历，因此这些链设置会看到桥会忽略的帧。使用此链时应考虑到这一点。另外要注意的是，这些链不会看到进入非转发网桥端口的帧。

如何理解最后一句的non-forwarding bridge port，应该是有一个开关负责打开bridge的forwarding功能，就像ip_forward。然而我并没有找到此配置。仅仅找到了/proc/sys/net/bridge/bridge-nf-call-iptables和CONFIG_BRIDGE_NETFILTER，但是感觉应该不是这里的non-frowarding。

桥对一个帧的决策可能是以下情况之一：

桥接，条件是：目的Mac地址在桥的另一端端口
从桥的所有端口广播此帧，条件是：桥不知道拥有此目的Mac地址的box
将此帧传递至更高协议栈，条件是：帧的目的Mac是桥的Mac或者是桥某个端口的Mac
忽略此帧，条件是：帧的目的Mac地址在桥的同侧，和帧入口在同侧

图2b中，有几点问题，
1. 图中第一个Routing做了什么，之后呢？
2. FORWARD是依据什么作为判决条件的？
3. BRIDGING为什么是一个判断框，而又没有N（否定情况）？
4. 这里的BRIDGING是通过桥口将数据帧发出去的意思吗？

下面我会对这几个问题作答。

Figure2c 桥接表ebtables遍历过程

Ebtables有三个表：filter，nat和broute，如图2c，每个表有各自的链。
注：filter和nat表的OUTPUT链是分离的，并有不同的用法。
图2b和2c给出了清晰地ebtables的链是如何附加到桥的hook点的。
当被绑定到桥上的网卡接收到帧时，帧会首先经过BROUTING链。在这个特殊的链，你可以选择路由或者桥接此帧，使你成为一个brouter(桥路器)。与在互联网上找到的关于brouter是什么的定义有些不同。下一个定义很好地描述了使用BROUTING链的brouting能力：
“brouter是桥接一些帧/分组（即基于链路层信息的转发）并路由其他帧/分组（即基于网络层信息的转发）的设备。桥/路径决策基于配置信息。”

我觉得这里体现出了文章介绍部分说明的情况“br-nf代码有时会违反TCP/IP网络模型”，本身bridge和ebtables都处于第二层，然而这里竟然会去根据三层的信息决定是路由还是桥接。

例如，可以使用brouter作为2个网络之间IP流量的普通路由器，同时桥接这些网络之间的特定流量（NetBEUI，ARP，无论什么）。IP路由表不使用网桥逻辑设备，而是将IP地址分配给物理网络设备，这些设备也恰好是网桥端口（网桥受限网卡）。

这里说的IP路由表不使用网桥逻辑设备，box将ip地址分配给物理网络设备，也正好是网桥接口。不太理解，为什么说IP路由表不使用网桥逻辑设备，其次，当网卡被桥接后，其ip地址是访问不到的，我做过试验，同时也有理论证明。见链接。

BROUTING链中的默认决定是桥接。

默认是ACCEPT，在BROUTE表中，ACCEPT的含义略有不同，就是桥接的意思，这个可以从ebtables的用法中找到。而DROP的含义是让帧被路由。还有一个决策时redirect，它相当于做了目的Mac地址转换，并将桥口的Mac地址作为目的Mac。这个redict的作用和DROP的作用效果一样，都会让帧走到三层，去做路由抉择，区别在于，DROP并没有进行目的Mac地址转换。
redirect可以用在broute表的BROUTING链和nat的PREROUNTING链，只是它们更换的Mac不一样，nat中使用的桥的的Mac地址(linux中桥设备默认有一个Mac地址，是桥口的某一个设备Mac地址)

接下来，帧通过PREROUTING链。在此链中，你可以更改帧的目标MAC地址（DNAT）。如果该帧通过该链，则桥接代码将决定帧的发送位置。网桥通过查看目的MAC地址来实现这一点，它不关心网络层地址（例如IP地址）。

在此回答刚才的问题1，2，3，4：
1. 到了三层，根据路由表查看数据包下一跳应该发送到哪里（如果有iptables相关策略，就会去遍历iptables的链点）
2. 依据目的Mac地址是否是自己或者是广播包（应该说是不是bridge的Mac地址，应该不是bridge.port地址，这里也是个疑问。）
3. 否定时通过路由
4. 数据包的出口还是桥的接口，判断框里应该写BRIDGING/ROUTING，但是经过routing后的帧还是有可能会经过ebtables的OUTPUT和POSTROUTING。

如果网桥决定这个帧的目的地是本机，这个帧就会经过INPUT链。在这个链你可以过滤目的是bridge box的帧。遍历过INPUT链后，这个帧将会被传送上网络层（IP相关的代码中）。因此，一个被路由的IP数据包会经过ebtables的INPUT链，而不会经过ebtables的FORWARD链。这是符合逻辑的。

Figure2d 传入帧遍历的链

Figure2e 转发帧遍历的链

桥接决定后，本地始发的帧将遍历nat OUTPUT，过滤器OUTPUT和nat POSTROUTING链。nat OUTPUT链允许改变目的地MAC地址，并且过滤器OUTPUT链允许过滤来自桥接盒的帧。请注意，在桥接决策后，nat OUTPUT链会被遍历，所以这实际上太晚了。我们应该改变这一点。nat POSTROUTING链与上面描述的一样。

1.还是不理解这个桥接决定到底是什么意思呢。难不成就是数据包出去是否要通过这个桥。先简单这么理解吧。

2.为什么说，桥接决策后，nat表的OUTPUT链会被遍历，这实际上太晚了。因为nat OUTPUT链允许进行DNAT，但是此时桥接决策已做，意味着数据包从哪个网卡出去已经确定了，此时再做DNAT的有可能变换后的目的地址其实不应该从这个口出去的，但是已经晚了。

Figure2f 传出帧遍历的链

当目标设备是逻辑桥设备时，需要被路由帧也可能通过这三条链。
这个容易理解，目的MAC为逻辑桥设备，被路由决策后，封装后的帧的源MAC地址为桥的Mac。

3.一个用做桥梁和路由器的设备（而不是桥路器）

Figure3a IP代码hooks

下面是iptables数据包遍历方案

Figure3b 路由表(iptables)遍历过程

请注意，iptables nat OUTPUT链位于路由决策之后。正如前一节所述（讨论ebtables时），这对于DNAT来说已经太晚了。这是通过重新路由IP数据包，如果它已被DNAT解决，在继续之前。为了清楚起见：这是Linux内核的标准行为，不是由我们的代码引起的。

在nat OUTPUT链上既可以做snat也可以做dnat，为什么说dnat在这里做太晚了呢，因为，此时路由决策已经做了，数据包其实已经却从哪个口出到达下一跳了，但是转换后的目的地址并不一定可以从此口可以到达的。

图3a和3b给出了iptables链连接到IP hook的清晰视图。在内核中启用bridge代码和netfilter时，iptables链也会连接到桥接代码的钩子上。但是，这并不意味着它们不再附加到他们的标准IP代码钩子上。对于与桥接代码接触的IP数据包，br-nf代码将决定iptables 链将在网络代码的哪个位置被遍历。很明显，这就确保没有链被同一个数据包遍历两次。所有不与网桥代码接触的数据包都会以标准方式遍历iptables的链，如图3b所示。

除了别的之外，以下各节还将尝试解释br-nf代码的功能以及它为什么执行此操作。
可以看到一个IP数据包/帧可能会遍历 nat PREROUTING，filter NPUT，nat OUTPUT，filter OUTPUT和nat POSTROUTING ebtables链。
这是在当网桥也用作路由器时，可能会发生这种情况。包含该IP数据包的以太网帧将具有网桥的目标MAC地址，而目标IP地址不是网桥。包括 iptables链，这是IP数据包如何通过网桥/路由器。

Figure3c 桥梁/路由器路由数据包到一个桥接口（简单视图）

这里是假设路由决定发送帧到桥接口。如果路由决定发送数据包到非桥接口，是下面这种情况：

Figure3d 桥梁/路由器路由数据包到一个桥接口（简单视图）

这两幅图如何理解呢：比如一条linux服务器，三个网卡，eth0，eth1，eth2，eth0和eth1被桥接为br0，接受到的数据包从br0的某一个端口进来，经过路由判定后，该数据包需要从eth2口送出（例如数据包的目的地址和网桥地址不一个子网，或者网桥没有地址，而恰巧和eth2在一个子网，或者默认路由是通过eth2才能到达的）。

图3c和3d假定IP数据包到达桥端口。这里显然是“不协调”的是在ebtables INPUT链之前遍历iptables PREROUTING 链，但是这不能在不牺牲功能的情况下得到帮助。请参阅下一节。

4.对被桥接的数据包进行目的地址转换。

取一个桥接收到的IP数据包。我们假设我们想在它上面做一些IP DNAT。更改数据包的目标地址（IP地址和MAC地址）必须发生在网桥代码决定如何处理帧/数据包之前。

因为等网桥代码处理完成后，帧已经不是远来的帧了，黄花菜都凉了，如果要在网桥代码里做DNAT的话，那么，这必须是同一个人写的代码，但是即使这样也违背了linux模块分离的特性）

所以，这个IP DNAT必须在网桥代码之前发生。即在桥代码实际上做任何事情之前。这与ebtables nat PREROUTING链将被遍历的地方是一样的（出于同样的原因）。这应该解释图3c和3d中遇到的不协调。
我们也应该注意到，桥接决策的帧成为上述列表中的第四项（例如忽略帧）将在ebtables和iptables的PREROUTING链中看到。

前面三个是指broute的BROUTING，mangle的PREROUTING和nat的PREROUTING。

5.被桥接的数据包遍历链的过程

桥接数据包永远不会到第1层（链路层）之上的任何网络代码。所以，桥接的IP数据包/帧将永远不会输入IP代码。因此，所有iptables链将被遍历是因为IP数据包会经过网桥的代码。链遍历看起来像这样：

这里图中没有画mangle表，包括mangle PREROUTING、mangle FORWARD和mangle POSTROUTING。

6.在iptables中使用桥口

希望能够在iptables规则中使用属于网桥（网桥端口）的物理设备是可以且有效的。了解输入的网桥端口对防止欺骗攻击是必要的。假设br0有端口eth0和eth1。如果 iptables规则只能使用br0，那么除了查看MAC源地址（然后仍然...）之外，无法知道eth0端的一个box何时将其源IP地址更改为eth1端子box的源IP地址。使用iptables physdev模块，您可以在iptables规则中使用eth0和eth1 ，因此可以捕获这些尝试。

试想一个场景，网桥两端各有一个pc终端，ip分别为192.168.1.11和192.168.1.12，他们的默认网关是桥，现在需要限制1.12地址访问外网，那么如果没有网桥端口参数(--physdev-in)的话，1.12很容易通过伪装ip（手动修改或者snat）来逃脱此限制。

6.1 iptables想要使用网桥目的端口

为了使这成为可能，必须在网桥代码决定帧需要发送的位置（eth0，eth1或两者）之后，才能遍历iptables链。这对第3部分提出的方案有一定影响（所以我们在这里查看路由过程，从桥某一端口进入box）。它实际上看起来像这样（在图3c的情况下）
Figure6a 路由时遍历链的过程（桥和netfilter代码已经编译到了内核中）

注意此图和图3c的区别，iptables的NAT POSTROUTING被移动到了最后面，晚于ebtables的各个链。
所有的链是在bridge代码中被遍历的。这都是br-nf代码做的工作。显然这并不意味着被路由的IP数据包不会进入IP代码。而是他们在IP代码中时不会经过iptables的链而已。

这个做法是如何实现的呢，有待看内核源码分析。

6.2 IP DNAT作用于本地生成的数据包（因此在 iptables nat OUTPUT链中）
本地生成的数据包的通常将通过的链是这样的：
Figure6c：

这里iptables的nat POSTROUTING之所又在前面了，原因应该不考虑br-nf代码

从6.1中我们知道实际情况应该是这样的（因为br-nf代码）
Figure6d:

请注意，当数据包在IP代码中时，iptables nat OUTPUT链被遍历，并且当数据包通过桥接决定时，iptables的filter OUTPUT链被遍历。这使得可以对另外的设备在nat OUTPUT链执行DNAT，并让我们在filter OUTPUT链中使用网桥端口作为现在。

这一句“This makes it possible to do DNAT to another device in the nat OUTPUT chain”，应意思是说在nat OUTPUT链执行完DNAT后，数据包可能会用另一个设备（网口）将此帧发送出去。不知道这么理解是不是对的：）

7.帧/数据包通过iptables PREROUTING，FORWARD和POSTROUTING链的两种可能方式

由于br-nf代码的存在，帧/数据包可以通过给定的3个iptables链来传递2种方式。第一种方式是帧被桥接时，所以 iptables链被bridge代码调用。第二种方式是当数据包被路由时。因此必须特别注意区分这两者，特别是在iptables FORWARD链中。这有一个需要注意的奇怪的例子：

Figure7a. 非常基本的配置

172.16.1.2和172.16.1.4的默认网关是172.16.1.1。172.16.1.1是端口为eth1和eth2的网桥接口br0。

更多细节：

这个想法是172.16.1.4和172.16.1.2之间的通信被桥接，而其余的通过伪装被路由。

Figure7b: 示意设置的数据流情况

以下是在启动桥/路由器时使用的可能方案：

iptables -t nat -A POSTROUTING -s 172.16.1.0/24 -d 172.16.1.0/24 -j ACCEPT

iptables -t nat -A POSTROUTING -s 172.16.1.0/24 -j MASQUERADE

brctl addbr br0

brctl stp br0 off

brctl addif br0 eth1

brctl addif br0 eth2

ifconfig eth1 0 0.0.0.0

ifconfig eth2 0 0.0.0.0

ifconfig br0 172.16.1.1网络掩码255.255.255.0起

echo'1'> / proc / sys / net / ipv4 / ip_forward

注意第一行。因为 iptables对于桥接数据包和路由数据包都执行代码，我们需要区分这两者。我们并不希望桥接帧/数据包被伪装。如果我们省略第一行，那么一切都会起作用，但事情会以不同的方式发生。比如172.16.1.2 ping 172.16.1.4。网桥接收到ping请求，并在首先伪装IP地址后通过它的eth1端口发送。所以数据包的源IP地址现在是172.16.1.1，而172.16.1.4将响应这个桥。伪装会将此响应的IP目标从172.16.1.1更改为172.16.1.4。一切正常。但最好不要有这种行为。因此，我们使用第一行来避免这种情况。

8.iptables PREROUTING链中的IP DNAT作用在进入桥端口的帧/数据包上

通过一些常规播放，可以确保（参见/net/bridge/br_netfilter.c）DNAT'ed数据包在DNAT之后具有与它们所来的输入设备相同的输出设备（我们想要调用的逻辑桥设备br0）将通过ebtables FORWARD链，而不是通过ebtables INPUT / OUTPUT链。所有其他的DNAT'ed数据包将被纯粹路由，所以不会通过ebtables FORWARD链，将通过ebtables INPUT链并可能通过ebtables OUTPUT链。

如果在iptables的nat PREROUTING链执行DNAT的话，那么次数据帧可能出现两种情况，1.目的MAC地址不是桥地址，如果判定数据包从br0进入而且还是从br0出去的话，那么它将进过ebtables的 FORWARD链而不是ebtables INPUT/OUTPUT链。2.目的MAC地址是桥地址，将会被路由，所以不会走ebtables的FORWARD链。

9.使用iptables的MAC模块扩展

这里解释的副作用发生在内核中启用了netfilter代码时，IP数据包被路由并且该数据包的输出设备是逻辑桥设备。在iptables FORWARD链中过滤MAC源时会遇到副作用。从前面部分应该清楚，iptables FORWARD链的遍历被推迟到数据包经过桥代码时。这样做是为了我们可以在网桥端口输出设备上进行过滤。这对MAC源地址有副作用，因为IP代码已将MAC源地址更改为桥接设备的MAC地址。因此在iptables的 FORWARD链中过滤源Mac是有问题的且目的Mac是网桥/路由器的计算机的MAC的数据包。如果你真的需要过滤这个MAC源地址，你应该在nat PREROUTING链中进行。是的，这非常丑陋，但是如果将可以过滤真正的MAC源地址的功能加在FORWARD链中，将涉及非常肮脏的黑客攻击，这是不值得。这当然会使第6部分的反欺骗言论变得有趣。

还没来得及细想为什么会涉及黑客攻击。

10.使用iptables的physdev模块

2.6标准内核包含一个名为physdev的iptables匹配模块，该模块必须用于匹配网桥的物理输入输出端口。它的基本用法很简单（请参阅iptables手册页以获取更多详细信息）：

iptables -m physdev --physdev -in <bridge-port>

和

iptables -m physdev --physdev-out <bridge-port>

最后是两幅图片，比较清晰的指出了IP数据包在Linux bridging firewall上的流转。图1，图2

总结：

为什么在br-nf代码中遍历iptables的链

在进入bridge前就用进行dnat

为了能将bridge port作为过滤条件

posted @ 2018-04-03 21:49 攻城狮dreamer 阅读(16426) 评论(1) 收藏举报

刷新页面返回顶部