上一页 1 2 3 4 5 6 7 8 9 ··· 26 下一页
摘要: 本文是一篇比较有价值的、介绍SRE的文章。国内的所谓SRE职责其实并不明确,大部分其实还是干普通运维的事。但文中介绍的谷歌的运作方式起点还是相对比较高的,无论对SRE、对开发,甚至对公司都有很高的要求。正如本文所述,谷歌的方式并不一定适合其他公司,但其SRE的建设经验仍然能够带来一定的启发。在阅读本 阅读全文
posted @ 2022-07-22 13:36 charlieroro 阅读(908) 评论(0) 推荐(0) 编辑
摘要: Airbnb的动态kubernetes集群扩缩容 本文介绍了Airbnb的集群扩缩容的演化历史,以及当前是如何通过Cluster Autoscaler 实现自定义扩展器的。最重要的经验就是Airbnb是如何一步步演化到当前架构的,其驱动因素又是什么。 译自:Dynamic Kubernetes Cl 阅读全文
posted @ 2022-07-20 13:30 charlieroro 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 通过memberlist库实现gossip管理集群以及集群数据交互 概述 memberlist库的简单用法如下,注意下面使用for循环来执行list.Join,原因是一开始各节点都没有runing,直接执行Join会出现连接拒绝的错误。 package main import ( "fmt" "gi 阅读全文
posted @ 2022-07-12 09:04 charlieroro 阅读(1553) 评论(0) 推荐(1) 编辑
摘要: 简单聊聊运维监控的其他用途 说到监控,一般都会聊到这三个基本维度:metrics、log和tracing,以及这几种常用的工具:Prometheus+grafana+alertmanager、ELK、jaeger。 监控通常来展示应用或集群的运行状态,配合告警来达到维护系统稳定性的目的。但除此之外, 阅读全文
posted @ 2022-07-02 22:55 charlieroro 阅读(595) 评论(0) 推荐(0) 编辑
摘要: Opentelemetry SDK的简单用法 概述 Opentelemetry trace的简单架构图如下,客户端和服务端都需要启动一个traceProvider,主要用于将trace数据传输到registry(如jaeger、opencensus等)。client和server通过context将 阅读全文
posted @ 2022-06-21 22:03 charlieroro 阅读(3120) 评论(0) 推荐(0) 编辑
摘要: alertmanager集群莫名发送resolve消息的问题探究 术语 告警消息:指一条告警 告警恢复消息:指一条告警恢复 告警信息:指告警相关的内容,包括告警消息和告警恢复消息 问题描述 最近遇到了一个alertmanager HA集群莫名发送告警恢复消息的问题。简单来说就是线上配置了一个一直会产 阅读全文
posted @ 2022-06-17 23:39 charlieroro 阅读(1328) 评论(0) 推荐(0) 编辑
摘要: 在生产中部署ML前需要了解的事 译自:What You Should Know before Deploying ML in Production MLOps的必要性 MLOps之所以重要,有几个原因。首先,机器学习模型依赖大量数据,科学家和工程师很难持续关注这些数据以及机器学习模型中可调节的不同参 阅读全文
posted @ 2022-06-16 09:22 charlieroro 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Netflix Drive: 为媒体资产构建一个云原生的文件系统 Netflix Drive是一个多接口、多OS的云文件系统,旨在为设计师的工作站提供典型的POSIX文件系统和操作方式。 它还可以作为一个具有REST后端的微服务,内含很多工作流所使用的后端操作,以及无需用户和应用与文件和文件夹直接交 阅读全文
posted @ 2022-06-14 18:03 charlieroro 阅读(403) 评论(0) 推荐(1) 编辑
摘要: 使用kubeseal加密和管理k8s集群的secret 在k8s的管理过程中,像secret这种资源并不好维护,kubeseal提供了一种相对简单的方式来对原始secret资源进行加密,并通过控制器进行解密,以此来规避secret泄露风险。 安装 安装kubeseal $ wget https:// 阅读全文
posted @ 2022-06-10 09:16 charlieroro 阅读(1114) 评论(0) 推荐(1) 编辑
摘要: 4 回归 之前有转载过一篇文章:容量推荐引擎:基于吞吐量和利用率的预测缩放,里面用到了基本的线性回归来预测容器的资源利用情况。后面打算学一下相关的知识,译自:Machine Learning With Go 我们将探究的第一组机器学习技术通常被称为回归(regression),我们可以将回归理解为一 阅读全文
posted @ 2022-06-01 23:40 charlieroro 阅读(995) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 26 下一页