随笔分类 -  Bug

1
日常遇到的一些小bug的记录
摘要:网上搜到很多解决方法,最简单有效的一个是在 /etc/default/grub 中添加参数: GRUB_CMDLINE_LINUX="amdgpu.backlight=0" 此方法适用于 OpenSUSE/ArchLinux 等众多 Linux 发行版,内核版本不能低于 5.11.7 或 5.12- 阅读全文
posted @ 2021-06-09 01:52 於清樂 阅读(2153) 评论(0) 推荐(0) 编辑
摘要:我的笔记本是小米游戏本8代增强版,在从 Manjaro 切换到 openSUSE leap 后,发现只要电脑一休眠,唤醒后触摸板就会失灵。 网上搜到这个 question: linux-mouse-freezes-after-suspend 它给出了一个有效的临时解决方法: sudo rmmod i 阅读全文
posted @ 2021-01-25 13:57 於清樂 阅读(390) 评论(0) 推荐(0) 编辑
摘要:top 命令输出(输入 M 进程按内存排序,输入 m 可视化内存占用): top - 13:24:35 up 22 days, 23:01, 1 user, load average: 15.64, 18.52, 12.97 Tasks: 358 total, 5 running, 353 slee 阅读全文
posted @ 2020-11-24 13:41 於清樂 阅读(1467) 评论(0) 推荐(0) 编辑
摘要:2020-07-17 问题描述 Kubernetes 的级联管理功能失效: 删除 Replicaset 时,Pod 不会被级联删除 删除 Cronjob 时不会级联删除 Job 删除 Job 时,也不会自动删除对应的 Pod 问题排查 搜索资料,确认级联删除是垃圾收集器提供的。排查 kubelet 阅读全文
posted @ 2020-11-23 08:47 於清樂 阅读(1491) 评论(0) 推荐(0) 编辑
摘要:2020-04-14 Bug 描述 测试机进行一次完整的部署(近 90 个新 Pod 被调度到同一个节点)后,通过 Dashboard 查看,发现 Pod 容器组有一个 Failed Pod。 容器总体个数正常,Failed Pod 是“多余的”。 排查流程 在 Dashboard 中查看该 Pod 阅读全文
posted @ 2020-11-22 21:59 於清樂 阅读(3884) 评论(0) 推荐(0) 编辑
摘要:Bug 说明 CentOS 虚拟机卡顿,于是执行了强制关机。 在强制关机后重启虚拟机,机器报错:corruption of in memory data detected 解决方法 参考 "虚拟机Centos报corruption of in memory data detected错误的恢复" 使 阅读全文
posted @ 2020-05-18 11:20 於清樂 阅读(2093) 评论(0) 推荐(0) 编辑
摘要:Bug 描述 IngressGateway 日志如下: ryan@RYAN-MI-DESKTOP:~$ kubectl -n istio-system logs istio-ingressgateway-7f85d5ffcc-f4g7l 2020-04-22T01:09:24.691767Z inf 阅读全文
posted @ 2020-05-05 10:39 於清樂 阅读(2741) 评论(0) 推荐(0) 编辑
摘要:Bug 描述 在 ESXi 的「时间和日期」界面设置了 NTP 时间同步,完全没有任何效果,重启也没用。 配置页面如下: 重启服务操作截图如下: 问题排查 换了好几个 NTP 服务器域名,然后重启 ESXi 的 NTP 服务,都没有任何效果。 网上也没搜到什么有效的信息,就搁置了一段时间。 后来考虑 阅读全文
posted @ 2020-04-21 17:13 於清樂 阅读(3731) 评论(0) 推荐(0) 编辑
摘要:Bug 描述 K8s Worker 节点负载突然升高至 90+,导致节点 NotReady. 该节点为 8c/10G 的配置,这个负载显然不正常。 排查 首先用 ,发现 cpu/memory 使用率都不高,怀疑是磁盘 IO 问题。 查看 prometheus 监控: 发现是首先内存飙升致 100%, 阅读全文
posted @ 2020-04-06 22:41 於清樂 阅读(1069) 评论(0) 推荐(0) 编辑
摘要:Bug 描述 部署 Pod 后发现 Pod 无法启动,Kubernetes 报错: 根据搜索到的博客,在节点上执行如下命令: 上述命令输出很多的 IP 地址,使用 统计发现 IP 数量为 253. 查看 Node 的 PodCIDR 网段: 得到网段为 ,IP 范围为 ,共 254 个。(因为要去掉 阅读全文
posted @ 2020-04-02 22:12 於清樂 阅读(1778) 评论(0) 推荐(0) 编辑
摘要:Bug 描述 Bug 分析 "更新 Ubuntu 系统,避免报错「校验和不符」 " 是 http 协议的缓存更新不及时,导致了 hash 值不匹配。 解决方法 根据上面给出的链接,我改用 https 协议的 apt 源,避免了缓存导致的这个 bug,具体的 dockerfile 如下: 解释一下,就 阅读全文
posted @ 2020-03-18 09:55 於清樂 阅读(470) 评论(0) 推荐(0) 编辑
摘要:修改了 Deployment 后,旧的 Pod 被 Terminated,新的 Pod 被启动。 然后问题就出现了,旧 Pod 一直处于 Exited: Terminated 状态,无法删除。 因为我们使用了 hostPort,端口一直被这个旧 Pod 占用,新 Pod 就无法启动,一直 Pendi 阅读全文
posted @ 2020-03-17 09:13 於清樂 阅读(664) 评论(0) 推荐(0) 编辑
摘要:问题 某天,突然发现 k8s 集群有大量的 evicted 记录,排查发现某节点 Fluentd 的 Buffer 占用超过 13G 存储,导致 K8s 节点 DiskPressure. 排查 K8s 默认在 Node 的可用存储空间低于 85% 时触发 DiskPressure,尝试清理空间,驱逐 阅读全文
posted @ 2020-03-09 13:50 於清樂 阅读(2232) 评论(2) 推荐(0) 编辑
摘要:一台 Linux 服务器的四类指标如下: CPU:使用率、平均负载(load average) RAM:used | free | buffer/cache | avaliable Disk:空闲容量大小、IO 状态 Network:网速、延迟、丢包率等 下面详细地说明各项系统参数的意义、它们的正常 阅读全文
posted @ 2020-01-05 21:34 於清樂 阅读(3224) 评论(0) 推荐(0) 编辑
摘要:问题描述 出问题的是我们的主 Jenkins Slave,是在 Ubuntu 虚拟机里面,使用 Docker 跑了四个不同环境的 Jenkins Slave,提供 c#/golang/flutter/python 等的构建/测试环境。 而且这台服务器是不关机的,24h 提供服务。 一段时间后,这台 阅读全文
posted @ 2020-01-05 20:38 於清樂 阅读(1596) 评论(0) 推荐(0) 编辑
摘要:个人笔记,不保证正确! 博客已迁移至:https://thiscute.world/posts/kubernetes-common-errors-and-solutions/ Pod 常见错误 OOMKilled: Pod 的内存使用超出了 resources.limits 中的限制,被强制杀死。 阅读全文
posted @ 2019-11-24 19:26 於清樂 阅读(19797) 评论(0) 推荐(0) 编辑
摘要:对于运维而言,我们希望每台服务器的 hostname 都能体现出它自己的功能/ip,方便排查。 ubuntu server live 18.04 的安装流程非常友好,从 ip 到 hostname 都可以直接指定。但是每台虚拟服务器都手动装一遍系统,也台麻烦了一点。 比较方便的方法,是先制作好一个 阅读全文
posted @ 2019-09-29 21:06 於清樂 阅读(1298) 评论(0) 推荐(0) 编辑
摘要:Manjaro Deepin 启动报错: 通过 查看日志如下: 使用 提示找不到该模块: 根据搜索到的说法,运行: 然后安装两个 中的包(20190719,当前版本是 0.1.0),安装过程中先卸载重装原有的 deepin anything。 重装后再使用 ,就能正常打印出模块信息了: 重启电脑,错 阅读全文
posted @ 2019-07-19 23:17 於清樂 阅读(1165) 评论(0) 推荐(0) 编辑
摘要:Harbor 是一个企业级的 Docker 私有仓库项目,使用 docker-compose 启动时,它本身由多个 Docker Containers 组成,通过 docker-compose 管理 containers 之间的依赖关系。 安装 安装参见官方文档:Harbor - Installat 阅读全文
posted @ 2019-07-07 13:02 於清樂 阅读(16105) 评论(2) 推荐(4) 编辑
摘要:BUG 使用 启动 ssh 服务,提示: 然后使用 powershell 连接,提示 refused: FIX 卸载重装 openssh server: 然后修改 的下列几行参数: 重启 ssh 服务: 然后连接: 问题解决。 参考 "windows wsl sshd配置" 阅读全文
posted @ 2019-06-05 14:50 於清樂 阅读(2798) 评论(2) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示