人人都是网络工程师

网络是个很复杂的东西,经常晚上有美女家里上不了网,就打电话给我说“高老师,我家网络坏了,快来帮我修一下”。修了几次之后,我就有了这样一个心得:网络工程师的桃花运都比较好。

当然,修复无线路由器只是小菜一碟(PS:我一般都带个新的路由器过去),网络工程师的日常更多的时候是这样的:

凌晨1点,刚刚完成网络变更的你,躺在舒服的床上准备睡觉,望着枕边熟睡的儿子,嘴边泛起一丝微笑,感觉未来都是亮的。突然手机“bilibili”声响起,短息告警显示核心交换机网络异常,内网丢包率15%。你不能多想,立即然后穿好衣服,奔向机房,看着下面一坨网线,陷入沉思,想到底是哪里又出了问题。

所以大部分网络工程师都有一个特点:黑眼圈。哈哈,这里就不调侃了,我们进入正题。


今天的主题是人人都是网络工程师,但是很明显在过去的很长一段时间,网络工程是一件很专业的事情。那么,我们先基本罗列一下在传统的IT环境下,一个组织想获得稳定可靠的网络环境需要做哪些事情呢?

一般来讲,网络系统的交付可以分成两个部分:网络的规划建设 + 网络的监控运营

1. 网络规划和建设

一个典型的网络可能像下面一样(图片来自互联网,仅用于本次交流分享):

为了完成网络的规划和建设部署,工程师需要了解以下内容:

  • 网络基础知识:OSI协议、路由协议(OSPF、RIP、BGP等)、内网组网、Internet联网

  • 网络设备知识:常见品牌的交换机、路由器规格配置、性价比、可维护性

  • 运营商知识:中国各省市运营商状况、专线及公网接入

其中第一条的网路基础知识,花1年时间学习并完成CCIE课程应该可以搞定;

第二条的网络设备知识需要工程师有多个项目交付经验,对市场中常见品牌及型号有了解,同时具备熟悉的操作能力,2年左右时间可以搞定;

第三条需要有实际项目和运营商经验,可以在第二条基础之上一同学习。简单来说,至少需要3年左右时间,才可以具备独立搞定一套网络的知识储备(当然大神学习特别快的不特殊而论哈)。不过很明显,一般人真搞不定!

2. 网络监控及运营

网络建设整体交付后,为了保证整个网络的可运维性,需要配套开发一整套网络监控和管理系统。一般私有云交付会提供配套的网络监控系统,如果是按照自己的需求从头到尾自己弄,那配套需要一个运营开发团队才能按照ITIL(IT基础架构库)的模式搭建起一套完成的网络监控、故障派单的系列管理系统。

系统搭建起来后,还需要雇用一个专业的网络运营团队7*24小时不间断进行网络的运维监控,发现问题在一定时间内完成系统的应急修复。如果发现基础业务网络架构拓扑无法满足需求,还需要额外补充建设环路以保证网络互连可用性。下面是一个看起来比较酷炫的NOC(网络运营中心)监控中心形象。

说了这么多,总结起来一句话:

在传统的IT架构中,人人来做网络工程师,痴心妄想~不仅建设规划的时候要下血本,后期的监控运维也要付出很大的人力代价。

然而,公有云的普及给人人都是网络工程师一个机会!

这是一个典型的公有云和用户的服务分界。无论是通过标准的vxlan网络虚拟化协议,还是通过腾讯云这样自研的3层GRE隧道封装,公有云服务商都普遍在网络层(IP)来划定用户和平台的边界。IP层协议全世界都是标准的,刚刚上面写的传统网络部署中,不标准的交换机、路由器和运营商网络环境,都被公有云提抽象成了标准的网络服务组件,复杂的运营商网络环境通过统一的BGP出口和附带有SLA的标准网络服务来代替。

只要你在计算机专业学过简单的图知识,花1天时间看一下IP协议和基本的静态路由知识,就可以分分钟在公有云平台上部署起一套金融级网络架构。下面我分别简单介绍一下公有云提供的网络服务,并和传统网络环境做一下对比。

1. 公网服务

用户在公有云上部署的集群,大部分用于对外提供服务。公有云的用户不需要理解中国有多少家运营商(电信、联通、移动、长城宽带、教育网……..还有几十家可以列出来),也不需要理解各家运营商分布在哪些区域,覆盖哪些客户,自己的客户都在用什么网络。你只要知道有你有一个很NB的公网IP,这个IP很牛逼可以服务所有的客户就好了。如果你是一个有追求的人,还可以从监控平台看一下这个IP辐射中国大江南北各种用户的时延和可用性。

公有云厂商为了实现这样简单的用户体验,至少要做以下几样事情:

  • 运营商融合:购买支持多运营商的公网IP和带宽(腾讯云聚合了20家运营商,还在增加)。如果是传统网络,只能用户自己一家一家的去接入,同时还要自己估算每家的接入带宽,事实告诉我们这些预估总是不准确的,一部分超出的会导致成本徒增,一部分低估的会在业务增长时成为瓶颈。(公有云平台一般都是按量的,不存在这样的问题)

  • 大带宽出口预备:通过足够大的公网带宽保证用户的服务波峰不会阻塞网络出口,同时入流量DDos攻击不会影响正常网络服务,单出口没有个500G都不好意思说平台是搞公有云的。如果是传统网络架构,多买100m的带宽,就要付100m的成本,为了保证不停服需要提前购买很多网络带宽导致网络带宽成本居高不下,而公有云上面就可以实现全面的按量计费,用多少付多少的钱,平台通过足够多的客户来削峰填谷降低单个客户的成本。

  • 网络流量调度:使用SDN或手动方式使网络流量可以跨出口调度以应对运营商的网络故障,比如北京电信的网络断了,就把流量切到上海电信。这个能力在国内也只有腾讯、阿里这样的互联网公司提供的网络有,其他中小型公有云厂商最多只能做到运营商之间来做流量切换(电信流量临时切换至联通),业务峰值时跨运营商的流量切换业务时延基本没有保证。而传统网络下,基本没可能做此类流量调度方案,原因很简单:一个字,贵!

  • DDos流量清洗:由于用户体量大,公有云平台被DDos攻击的风险也很大,过去一段时间我统计腾讯云100Gbps左右的DDos攻击每天平均10次,300Gbps以上的攻击每个星期也会出现几次,因此强大的流量清洗能力也是公有云平台的必备能力。传统网络中只能借助第三方DDos清洗平台,而且价格十分之贵。

2. 内网服务

内网服务方面,公有云平台为了方便用户配置,一般会提供VPC这样的虚拟专有云服务。通过对基础网络环境进行虚拟化,用户可以自行规划自己云主机的内网IP、内网网段、划分子网、指定路由等等,底层的交换机、路由器设备可能有各种各样的型号,但是最终都通过虚拟化整合成了一套虚拟化后的网络结构,这样用户只要学习一边公有云的网络架构后,再也不需要去感知硬件厂商的各种变化和更新了。

公有云上,划分子网、变更路由等操作都是在可视化的 web 控制台中操作的,不用担心对网络对象的变更是否会影响到其他业务服务触发重大事故。鼠标点一点,输入一下核心参数,一个网络变更就完成了。像AWS、腾讯云这样在VPC设计上还支持了子网的策略路由功能,每次路由变更也只会对关联子网范围内生效,其他子网根本不受影响。是不是感觉心里顿时少了一块大石?

为了更加简化用户使用公有云的网络服务,公有云厂商还会对标准的边界网关进行开发,提供黑核型的边界网关服务,以腾讯云为例,我们提供了:

  • NAT网关:用于云主机主动访问Internet

  • IPsec VPN网关:用于建立IPsec VPN连接

  • SSL VPN 网关:用于建立SSL VPN连接

  • 专线网关:用于接入专线,并提供专线两端的网络地址转换(NAT)功能

  • 对等连接:用于公有云上同地域或不同地域之间的VPC互联

各种边界网关、内网路由的可用性等都无需考虑双路由等设计,因为云平台厂商已经在底层网关设计、路由设计底层做了主备容灾切换逻辑,部分容灾是在同机房的不同设备上,部分容灾是在不同机房的不同设备上而已。

内网服务部分,各大云厂商平台还会提供安全组这样的通用安全策略工具,通过为云主机配置差异化的安全策略,就可以实现金融级的网络访问权限管理。

3. 网络监控、告警及故障处理

完成了系统部署之后,大部分公有云平台还会提供全面的网络监控和告警功能,当每个监控对象触发了告警策略之后,即会通过你所配置的通信方式联系到你。如果是容量告警,您可以在控制台分分钟搞定网络扩容而不停服;如果是底层网络故障,那么无论是运营商层、设备层、服务对象层都会有云平台的工程师第一时间为您处理,您自己无需做很多现场的操作。

这里交给大型公有云厂商的好处显而易见:网络的故障不仅会影响你的服务,也会影响QQ、微信等服务,你在云上的部署相当于享受着和国际顶尖服务一样的网络运维管理能力(当然中小型厂商的云服务运维能力我这儿无法一一鉴定),比起自己搭建私有云,自己雇人来管理可靠得多!


那么看着这么眼花缭乱的功能,真的能做到人人都是网络工程师吗?

当然可以!只要你掌握了下面几个基础知识,就可以完全胜任公有云平台上的网络管理工作:

大学计算机基础 or 计算机网络等级考试 及格即可(我记得大学考网络三级考试也就花了1天时间刷刷题,就过了…)

有了上面的基础知识,如果让我面授一下,基本上1天之后可以完成控制台所有的网络操作和管理了。如果是看文档会比较抽象,不过自学能力强的同学有1个星期也可以玩个差不多了。

核心知识点:

  1. 定义VPC和子网 CIDR

  2. 公有云路由优先级的匹配规则(一般是最精确路由匹配)

  3. 根据业务需要,熟悉常见的网关对象,比如nat网关、vpn网关等

  4. 配置基本的安全组策略

  5. 上手实操,边玩边学

  6. NAT网络地址转换(高级功能,上手可以先不用看)

只需要这几步,已经可以给公有云上95%的用户做网络架构规划了,而自学这些最多不需要1周的时间,你说未来是不是一个“人人都是网络工程师”的年代?

当然“人人都是网络工程师”也不是特别好,因为越来越多的公司转向公有云后,很多公司原有的网络工程师会被开发或者少数的几个运维替代,从而不可避免的面临失业问题。不过从全世界角度来看,私有云和混合云的部署方式还会长期存在,所以也不用特别担心这些问题哈。

posted @ 2017-04-09 20:07  Qcloud_KID  阅读(235)  评论(0编辑  收藏  举报