华为云CCE Turbo：基于eBPF的用户自定义多粒度网络监控能力

合集 - 云计算(100)

1.15年了，我们到底怎样才能用好 Serverless？2023-04-27 2.工业互联网：加速从“中国制造”迈向“中国智造”2023-05-04 3.Istio数据面新模式：Ambient Mesh技术解析2023-05-06 4.分布式场景下，如何对外提供易变的服务，打造可靠的注册中心？2023-05-06 5.看华为云Serverless 4大特性如何让软件架构更丝滑2023-05-06 6.当Serverless遇到Regionless：现状与挑战2023-05-08 7.全域Serverless化，华为云引领下一代云计算新范式2023-07-19 8.中小企业建设数字化工厂，选择集成老路还是整体重构？2023-07-20 9.EDS从小白到专家丨打造你的专属“数据物流”系统2023-07-20 10.DataArts Studio实践丨通过Rest Client 接口读取RESTful接口数据的能力2023-07-21 11.MES/MOM国内市场现状趋势与新生态模式参考2023-07-21 12.新一轮智能制造相关产业政策猜想2023-07-24 13.3步带你搞定华为云编译构建CodeArts Build “新手村任务”2023-07-24 14.深耕零售行业数字化，乐檬软件与华为云携手共进2023-07-25 15.资源成本降低70%！华为MetaERP资产核算的Serverless架构实践2023-07-27 16.云图说丨初识华为云OrgID：轻松实现统一帐号、统一授权2023-07-28 17.建设数字工厂：生产订单批量拆分的实现方法2023-07-28 18.建设数字工厂：MRP物料需求计划的逻辑原理与配置方法2023-07-31 19.如何为物联网设备注入“华为云+鸿蒙DNA”?2023-08-02 20.山歌寥哉！生产制造系统需要新治理框架2023-08-03 21.下一代MES系统架构分析与选型参考2023-08-04 22.如何用IoT边缘连接器实现云端应用控制PLC？2023-08-07 23.TooKit助力开发者上云2023-08-09 24.华为云API Explorer：自动化运维的得力助手2023-08-15 25.【HCDG城市行东莞站】松山湖开发者村助力企业释放数字新动能2023-08-21 26.EDS从小白到专家丨生态产业链高效协同的一计良策2023-08-25 27.KubeEdge Sedna v0.6 & Ianvs v0.2 重磅发布：边云协同终身学习全面升级2023-08-28 28.Karmada 结合 coreDNS 插件实现跨集群统一域名访问2023-08-29 29.《华为云DTSE》期刊2023年第二季—HDC.Cloud 2023专刊2023-08-29 30.跑AI大模型的K8s与普通K8s有什么不同？2023-08-31 31.跨越2000公里，15岁少年的云上逐梦2023-09-06 32.EDS从小白到专家丨打造数据交换的六边形卫士，让你的数据你做主2023-09-06 33.华为云发布CodeArts Inspector漏洞管理服务，守护产品研发安全2023-09-11 34.教你2种方法，将iOS设备通过MQTT协议连接到华为云物联网平台2023-09-12 35.一图回顾华为云开发者联盟扫地僧见面会2023-09-22 36.如何利用动态配置中心在JavaAgent中实现微服务的多样化治理2023-10-08 37.KubeCon China 2023 | 拥抱开源，华为云原生华彩绽放2023-10-11 38.一图看懂CodeArts Inspector 三大特性，带你玩转漏洞管理服务2023-10-11 39.Cloud Bursting解决方案，Serverless容器降本增效极致体验2023-10-12 40.4大焕新，华为云CCE带你感受容器化上云体验2023-10-12 41. 华为云发布CodeArts APIMock服务，精准Mock，并行开发零等待！2023-10-16 42.当 BACnet 遇上 IoT，你将体验到不一样的大楼2023-10-17 43.云图说｜初识API中心APIHub2023-10-20 44.文韬武略，创新无界，华为云1024程序员节精彩抢先看2023-10-23 45.KubeEdge v1.15.0发布！新增5大特性2023-10-24 46.1024 | 9位开发者分享生涯“最”时刻，文武状元大PK等你来2023-10-24 47.云图说｜华为云CodeArts Build，云端化的编译构建平台2023-10-25 48.焕新升级！新一代云原生可观测平台2023-10-26 49.云图说｜新一代Serverless应用托管引擎——CAE2023-11-02 50.一图看懂CodeArts Release三大特性2023-11-02 51.新一代云原生可观测平台之CCE服务监控篇2023-11-02 52.KubeEdge-Ianvs v0.2 发布：终身学习支持非结构化场景2023-11-03 53.云原生微服务的下一站：Proxyless Service Mesh2023-11-03 54.华为云云容器引擎CCE产品文档带来4个升级，降低使用难度2023-11-06 55.云图说｜分钟级构建业务大屏——Astro大屏应用2023-11-06 56.Kurator v0.5.0发布，打造统一的多集群备份与存储体验2023-11-08 57.云图说｜什么是可信智能计算服务TICS2023-11-09 58.为什么OpenAPI是未来企业数字化转型的决定性因素？2023-11-10 59.3大方面升级华为云CCE集群体验，助力集群高效运维管理2023-11-13 60.云图说｜华为云主机安全新版本上线2023-11-13 61.一图看懂华为云CodeArts Link六大特性2023-11-14 62.率先支持Kuasar！iSulad Sandbox API 简化调用链，沙箱管理能力增强2023-11-15 63.华为云康宁：携手伙伴，基于核心技术构筑健康可持续新生态2023-11-20 64.从热爱到深耕，全国Top10开源软件出品人探索“开源云上行”2023-11-20 65.实例讲解基于Sermant快速开发服务治理插件2023-11-22 66.华为云WebAssembly代码静态符号执行技术实现新突破2023-11-23 67.云小课｜HSS教您如何应对LockBit勒索事件2023-11-28 68.360°全方位体验华为云开放技术能力——华为云开发者日苏州站成功举办2023-11-29 69.Kmesh内核级流量治理，服务转发性能提升50%+2023-11-29 70.Istio 网格的出口定义者：深入了解 Egress Gateway2023-12-01 71.云图说 | 图解制品仓库服务CodeArts Artifact2023-12-06 72.Istio与Kubernetes：资源管理与协同解析2023-12-07 73.当创建statefulset资源后，k8s组件如何协作2023-12-08 74.Sermant：无代理服务网格架构解析及无门槛玩转插件开发2023-12-11 75.容器中域名解析流程以及不同dnsPolicy对域名解析影响2023-12-12 76.CNCF首个云原生多云容器编排项目Karmada正式晋级孵化2023-12-14 77.云图说丨初识华为云DDoS防护AAD——DDoS攻击防护平台2023-12-19 78.云图说丨初识华为云OrgID2023-12-20 79.Cloudeye对接Prometheus实现华为云全方位监控2023-12-21 80.All in One，快速搭建端到端可观测体系2023-12-22 81.从容器的发展历史理解容器的本质2023-12-25 82.云图说丨初识华为云边缘安全——为加速域名保驾护航2023-12-25 83.Kuasar成为CNCF官方项目，探索容器运行时新纪元2023-12-26 84.一文详解kube-apiserver认证鉴权能力2023-12-27 85.云图说｜有了这2招必杀技，你的主机“身陷重围”都不怕！2023-12-27 86.华为云开发者日，让开发者成为产业发展的决定性力量2023-12-28 87.华为云CCE集群健康中心：一个有专家运维经验的云原生可观测平台2023-12-29 88.一文带你深入理解K8s-Pod的意义和原理2024-01-02 89.华为云分布式云原生UCS，助力MetaERP构建企业级高可用分布式业务2024-01-03 90.当创建一个ingress后，kubernetes会发什么？2024-01-05 91.30+华为云专家倾力打造，《2023华为开发者宝典》免费下载2024-01-05 92.创建service后，kubernetes会发生什么2024-01-11 93.华为联合伙伴发布《云端控制平台与物流自动导引车通用接口指南》2024-01-16 94.华为云DTSE助力无锡云数IoT系统：打造超可靠数字化之源2024-01-18

95.华为云CCE Turbo：基于eBPF的用户自定义多粒度网络监控能力2024-01-26

96.人太多，挤不进去？教你搭建一个自己的幻兽帕鲁服务器2024-01-26 97.华为云DTSE携手“灵康宜”构造一站式智慧健康检测云平台2024-01-26 98.教你一键搭建本地服务器，轻松4人以上联机畅玩幻兽帕鲁2024-01-29 99.异常检测、自动告警，业务问题分钟级识别2024-01-29 100.混合云网络过于复杂？ENS给你全局一张网的极致体验2024-12-27

本文分享自华为云社区《华为云CCE Turbo：基于eBPF的用户自定义多粒度网络监控能力》，作者：云容器大未来。

基于eBPF的容器监控的兴起

容器具有极致弹性、标准运行时、易于部署等优点，越来越多的客户选择使用容器来部署自己的服务，随着容器规模越来越大，容器间网络交互也越来越复杂。我们需要一套完整的监控系统，让用户和运维团队可以更清晰的观测容器网络的运行情况。

基本的容器网络监控，和虚机的监控类似，只能监控每个pod的网络流量、丢包等基本信息，监控的方式就是通过pod内网卡上的统计信息获取监控结果。这种监控看到的信息有限，无法满足对容器网络深入观测的目标。

比如用户想看一下容器网络中都有哪些连接？哪些容器之间的访问比较频繁？他们的时延是多少？qps大不大？网络质量怎么样？这些监控数据使用普通的监控手段无法获取。如果将用户的网络报文都镜像分析，会消耗大量的内存和cpu资源。eBPF技术为我们提供了一种新的监控手段，让我们实现上述监控能力成为可能。

eBPF是一种能够在内核运行沙箱程序的技术，可以通过在内核的不同位置注入监控代码，灵活的实现各种监控能力，安全、高性能，并且对内核和用户业务没有任何修改侵入，非常适合在容器监控领域使用。

当前已经有丰富的eBPF监控软件，比如BCC、DeepFlow、Pixie等，可以给用户提供多种维度的监控能力。

华为云云容器引擎CCE Turbo容器服务，提供了基于eBPF技术的dolphin插件(即"CCE容器网络扩展指标"插件)，实现多维度、多粒度的容器监控能力，大大增强了容器网络的可观测能力。

dolphin基于eBPF的监控能力构建

dolphin插件使用eBPF技术并基于K8s框架设计，提供了容器网络多维度(pod、flow、自定义)监控和故障快速诊断能力，让客户可以更深入的观测K8s集群网络的运行情况，协助运维人员提前预防和快速定位故障。设计框架如下图所示：

dolphin支持运行在CCE Turbo集群，通过daemonset部署在K8s node上，使用CRD管理监控任务，监控结果为telemetry exporter格式，支持普罗主动拉取监控结果。

CRD定义如下：

apiVersion: crd.dolphin.io/v1
kind: MonitorPolicy
metadata:
  name: example-task            #监控任务名
  namespace: kube-system        #必填，namespace必须为kube-system
spec:
  selector:                     #选填，配置dolphin插件监控的后端，形如labelSelector格式，默认将监控本节点所有容器
    matchLabels:
      app: nginx
    matchExpressions:
      - key: app
        operator: In
        values:
          - nginx
  podLabel: [app]               #选填，用户标签
  healthCheck:                  #选填，本地节点 Pod 健康检查任务中最近一次健康检查是否健康、健康检查总健康&不健康次数这三个指标开关，默认不开
    enable: true                # true false
    failureThreshold: 3         #选填，健康检查不健康判定失败次数，默认1次健康检查失败即判定不健康
    periodSeconds: 5            #选填，健康检查任务检查间隔时间，单位秒，默认60
    command: ""                 #选填，健康检查任务检查命令，支持：ping、arping、curl，默认 ping
    ipFamilies: [""]            #选填，健康检查IP地址族，支持：ipv4，默认ipv4
    port: 80                    #选填，使用curl时必选，端口号
    path: ""                    #选填，使用curl时必选，http api 路径   
  monitor:     
      ip:       
      ipReceive:         
        aggregateType: flow       #选填，支持填写"pod"或"flow"，分别表示pod粒度监控或流粒度监控       
      ipSend:         
        aggregateType: flow       #选填，支持填写"pod"或"flow"，分别表示pod粒度监控或流粒度监控     
      tcp:       
        tcpReceive:         
           aggregateType: flow       #选填，支持填写"pod"或"flow"，分别表示pod粒度监控或流粒度监控       
        tcpSend:         
           aggregateType: flow       #选填，支持填写"pod"或"flow"，分别表示pod粒度监控或流粒度监控       
        tcpRetrans:         
           aggregateType: flow       #选填，支持填写"pod"或"flow"，分别表示pod粒度监控或流粒度监控      
        tcpRtt:         
           aggregateType: flow       #选填，支持填写"flow"，表示流粒度监控，单位：微秒       
        tcpNewConnection:         
           aggregateType: pod        #选填，支持填写"pod"，表示pod粒度监控

从CRD的定义可以看到，dolphin主要有如下能力：

用户自定义监控项。用户通过CR自选监控项，dolphin根据用户选择的监控项动态注入eBPF程序，不需要的内容不监控，最大程度减少对CPU、memory等资源的消耗。
用户自定义监控粒度。用户根据不同的监控诉求，可以选择pod或flow的监控粒度，dolphin根据不同的监控粒度注入不同的eBPF程序，既满足了用户的监控诉求，也尽量降低资源的销毁。pod粒度监控会按pod粒度聚合监控数据，用户通过pod粒度监控可以观测容器层面的网络运行情况。flow粒度监控会按pod内不同流聚合监控数据，用户通过flow粒度监控可以观测容器内不同流的网络运行情况，进一步感知不同pod之间的通信情况。
多任务并发。每个CR对应一个监控任务，可以多个任务并发监控，互不影响。用户可以根据需要定义多个监控任务进行不同层次、不同服务的监控。
selector选择监控范围。CR中的selector为标准的K8s pod label selector，用户可以通过selector选择需要监控的一组pod，灵活的定义监控范围。dolphin会根据用户定义的监控范围只监控选中的pod，大大降低资源消耗和监控结果输出。监控结果携带用户指定pod label。用户通过监控结果进行数据分析时，常常会用到pod上的label信息进行数据筛选、数据聚合、数据关联等动作，用户可以通过podLabel字段指定监控结果携带哪些pod上的label，dolphin输出监控结果时，会根据用户指定的label key获取pod的上的label value，并将label KV随监控结果输出，满足用户数据处理的诉求。
丰富的IP层和TCP层监控能力，vpc网络的健康检查能力。

具体的监控能力和使用方式，请参考华为云CCE容器网络扩展指标：

https://support.huaweicloud.com/usermanual-cce/cce_10_0371.html

示例

某应用是用户的重点应用，此应用通过deployment app1部署在华为云CCE Turbo上，用户想知道这个应用的qps情况，网络质量有没有问题，都有哪些client在访问这个服务，整体网络流量情况是怎样的？这时候用户可以安装dolphin插件来实现了。

在CCE集群console界面，点击"插件中心"，搜索“CCE 容器网络扩展指标”找到dolphin插件，点击“安装”，就完成了插件安装。

编写如下配置，并保存成app1.yaml

apiVersion: crd.dolphin.io/v1
kind: MonitorPolicy
metadata:
  name: app1
  namespace: kube-system
spec:
  selector:
    matchLabels:
      app: app1   
    monitor:     
     ip:       
        ipReceive:         
          aggregateType: pod       
        ipSend:         
          aggregateType: pod     
        tcp:       
           tcpRetrans:         
              aggregateType: flow       
           tcpRtt:         
              aggregateType: flow       
           tcpNewConnection:         
              aggregateType: pod

然后通过“kubectl apply -f app1.yaml”将配置使能，监控配置就完成了。通过prometheus可以轻松查看监控结果。

通过新建连接的统计信息轻松计算qps值。

通过流粒度的RTT和重传监控，感知应用的网络时延和丢包情况，还可以感知具体哪些client的访问网络质量较差。

pod粒度的ip收发统计，可以看到应用整体的流量情况。

除了使用Prometheus直接查看dolphin的监控结果外，还可以基于dolphin监控进行二次开发。华为终端云和CCE云原生观测服务利用dolphin flow粒度的网络监控能力，正在构建容器流量拓扑功能，可以一目了然的看到容器间的网络运行情况，敬请期待。

后续演进

dolphin崭露头角，还在快速的成长过程中，后续会在如下几个方面继续演进增强。

更丰富的监控指标，比如支持错包计数、建链失败统计、丢包统计、udp报文统计等指标。
更强的用户自定义能力，用户可以定义监控的IP范围、端口范围、聚合方式等。
K8s service监控能力，让用户能感知client->service->endpoint全链路的网络运行情况。
更智能的诊断能力，帮助用户对网络问题的快速定位、定界。

道阻且长，行则将至，行而不辍，未来可期，希望通过dolphin持续的演进，为用户带来更丰富的功能，帮助用户更方便、更清晰的观测容器网络。

云容器引擎CCE服务体验请访问

https://www.huaweicloud.com/product/cce.html

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-01-26 10:55 华为云开发者联盟阅读(65) 评论(0) 编辑收藏举报

华为云CCE Turbo：基于eBPF的用户自定义多粒度网络监控能力

基于eBPF的容器监控的兴起

dolphin基于eBPF的监控能力构建

示例

后续演进

云容器引擎CCE服务体验请访问

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

华为云CCE Turbo：基于eBPF的用户自定义多粒度网络监控能力

基于eBPF的容器监控的兴起

dolphin基于eBPF的监控能力构建

示 例

后续演进

云容器引擎CCE服务体验请访问

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

示例