随笔分类 - 问题总结
实际操作中所遇到的各种问题
摘要:考察一个应用的架构是不是云原生的标准 应用实例能否快速水平扩展 应用是否使用镜像机制打包来保证环境一致性 应用数据是否都写在容器数据卷中 关于pod的描述 一个pod里一个容器是最佳实践(不正确)、一个逻辑概念、多个容器的组合、kubernetes的原子调度单位 两个容器之前的超亲密关系可能包括哪些
阅读全文
摘要:前述 18年的那个留校夏天,极其偶然接触到了《Docker+Kubernetes》,由纯运维的发展方向转到了云原生运维的发展方向。19年5月以《linux helmsman platform》获得IT创新大赛二等奖,其实质是围绕云原生的边侧服务集成部署。20年5月以《基于Kubernetes的舵手集
阅读全文
摘要:时间:2021/07/01 事件:测试在写脚本时需要向POD的文件中增加内容\ 问题:执行 kubectl exec -it podname -n namespace -- echo "hello world" >> /etc/profile 没有写到POD的/etc/profile 文件,写入到了
阅读全文
摘要:问题描述 在使用prometheus监控mysql服务时,使用到了mysql_exporter,一直运行稳定,在mysql中加入skip-name-resolve参数后出现一下问题: 为啥这个主机被解析成了::1了呢?而不是localhost?这个mysql服务我加了一个skip-name-reso
阅读全文
摘要:原因 在升配k8s集群后,发现kiali无法登陆,具体为什么因升配k8s集群而导致kiali无法登陆,原因暂不清楚。 大致不能登陆原因如下图: 上图红色字体翻译如下: The Kiali secret is missing. Users are prohibited from accessing K
阅读全文
摘要:kubernetes删除pod一直处理 Terminating状态 # kubectl get po -n mon NAME READY STATUS RESTARTS AGE alertmanager-d6ccb787b-4bvhx 1/1 Running 0 17h grafana-64855f
阅读全文
摘要:k8s的namespace一直Terminating的完美解决方案 在k8s集群中进行测试删除namespace是经常的事件,而为了方便操作,一般都是直接对整个名称空间进行删除操作。 相信道友们在进行此步操作的时候,会遇到要删除的namespace一直处于Terminating。下面我将给出一个完美
阅读全文
摘要:前提 总是后知后觉,总是后知后觉。目前的现状是不论出现什么问题,都无法进行提前预警和在客户未知前介入处理。早上偶然和研发经理交流时突发灵感,写下此脚本,试图以此为开始进行提前的预警。 从生产k8s集群拿到test.cn的证书,在预发环境做daemon案例。 daemon案例 # pwd /yufa/
阅读全文
摘要:来源 处于对服务器安全的现实考虑,检测每个用户在哪个时间从哪个IP登陆服务器执行了什么命令成为了当下处理权限混乱的最佳路径。 核心代码 在/etc/profile里面加入以下代码 PS1="`whoami`@`hostname`:"'[$PWD]' history USER_IP=`who -u a
阅读全文
摘要:前言 关于aliyun托管k8s的存储插件主要有两种: CSI # kubectl get pod -n kube-system | grep csi-plugin csi-plugin-8bbnw 9/9 Running 0 26h csi-plugin-fszg9 9/9 Running 0 2
阅读全文
摘要:前言 因为阿里云的knative对应得k8s版本大于1.15,而我们目前得集群环境是1.14.8,因此需要对预发环境进行版本升级。基于aliyun托管的kubernetes集群版本升级本没有什么可写,以aliyun的官方文档为指引就可以实现。然而我今天在升级时发现并没有那么简单,而且让我学到了一个我
阅读全文
摘要:问题起源 某天早上收到BOSS 消息,如下: 苦逼的运维又开始了一天的背锅 排查问题 登陆阿里云查看一下磁盘 如下: emmmm 登陆服务器查看:这台服务器还是第一次登陆,因为上个架构师半路跑了,有点裂开,怎么办,查看历史记录吧 哦好 历史记录是有这样的操作的,进入/var/atlassian/ap
阅读全文
摘要:前言 排错的过程是痛苦的也是有趣的。 运维乃至IT,排错能力是拉开人与人之间的重要差距。 本篇会记录我的排错之旅。 由来 现如今我司所有业务都运行在阿里云托管kubernetes环境上,因为前端需要对外访问,所以需要对外域名,考虑申请https证书过于麻烦,所以希望借助免费的工具自动生成tls证书。
阅读全文
摘要:基于ab的压力测试 # cat apache-test.yaml ########################################################################## #Author: zisefeizhu #QQ: 2********0 #Date:
阅读全文
摘要:解决goland module代理无法访问 问题如下 D:\project\demo1\main>go run main.go go: finding module for package github.com/sirupsen/logrus main.go:4:2: module github.c
阅读全文
摘要:环境描述 生产环境通过gitlab-running实现自动化发布业务,现需要收集客户端的真实ip,需要将externaltrafficpolicy改为lacal模式(原来是cluster模式),前天开发反映无法发布业务(镜像拉取不成功)。想到就改动过externaltrafficpolicy所以考虑
阅读全文
摘要:思考: 现目前的架构是什么?业务逻辑? 研发一台,测试&生产共用一套k8s集群。 目前前端已经迁移到k8s,生产后端暂时没有上k8s。 造成目前架构的原因是什么? 历史遗留原因 造成架构不合理 那些地方不合理,为什么? (1).使用经典公网模式,会自动分配局域网ip地址 , nginx-
阅读全文
摘要:技术选型思路总结 下述总结时间于2020年06月04日,讲述人石老大,总结人紫色飞猪。以日志系统为例。 确定大方向 比如日志系统,选择的技术大方向以日志为中心。主要分:收集、处理、搜索、展示这四个模块 粗选 直接Baidu:输入日志系统,大致看两页确定一下目前大家热搜的都是哪些方案。EFK、ELK、
阅读全文
摘要:问题来源 2020年5月3日星期天。晚上7点39分,正是结账的高峰期,然而就是在这个时候系统崩溃了。牵扯到钱的事没一件事小事,可以定性此为重大事故。 造成的后果: 有人必须要背锅了,先恢复再找问题源头,再找谁的问题(这种锅绝大多数是开发的问题)。 问题处理 常见思路:回滚、重启大法!!! 先恢复再查
阅读全文