摘要: Prometheus 是一个开源的监控解决方案,部署简单易使用,难点在于如何设计符合特定需求的 Metrics 去全面高效地反映系统实时状态,以助力故障问题的发现与定位。本文即基于最佳实践的 Metrics 设计方法,结合具体的场景实例——TKE 的网络组件 IPAMD 的内部监控,以个人实践经验谈 阅读全文
posted @ 2020-09-17 18:35 腾讯云原生 阅读(14119) 评论(1) 推荐(2) 编辑
摘要: 腾讯会议,一款提供灵活协作的线上会议解决方案。其中大量的模块是有状态服务,在使用Kubernetes为其进行容器化部署时,Pod升级需保持共享内存、长连接服务。升级时只容忍ms级抖动,需提供大规模分批灰度发布、业务配额控制等能力,并同时解决集群节点负载不均衡、上万Pods的Workload的HPA性 阅读全文
posted @ 2020-09-17 09:50 腾讯云原生 阅读(1019) 评论(0) 推荐(1) 编辑