记录一次VMware vSAN升级踩下的坑
VMware产品升级需谨慎.... 且升且珍惜....
1、升级背景
vSphere 6.5u2 + vCSA 6.5u2的环境,计划升级至vSphere 6.7u3 + vCSA 6.7u3。
vSAN集群中有24台ESXI主机:
4台DELL: PowerEdge R740xd Raid卡型号:DELL 330 Adapter Raid卡固件版本:16.17.00.03
10台DELL:PowerEdge R730 Raid卡型号:DELL 300 Mini Raid卡固件版本:13.17.03.05
10台DELL:PowerEdge R730 Raid卡型号:DELL 300 Mini Raid卡固件版本:15.17.09.06
2、升级过程
2.1 兼容性检查
服务器信号兼容 ESXi 6.7u3
Raid卡330Mini兼容ESXi 6.7u3,但是需要升级固件版本
Raid卡330 Adapter兼容ESXi 6.7u3,不需要升级固件版本
2.2 升级vCSA
1. 通过vCSA 6.7u3 ISO镜像中的通过升级向导非常顺利的将vCSA升级到了6.7u3。
2. 升级完vCSA 6.7u3后在vCenter Server的vSAN集群运行状况页面看到VMware推荐的Raid卡固件版本为 16.17.00.03和16.17.00.05
2.3 升级ESXi 和 Raid卡固件
1. 因为集群中有4台PowerEdge R740xd的Raid卡固件版本为 16.17.00.03,因此计划将20台R730的Raid卡固件版本升级至 16.17.00.03,这样集群的Raid卡固件版本就统一。
2. 通过vCSA 6.7自带的Update Manager升级ESXI主机 非常顺利。
3. 升级ESXI的同时,通过DELL iDRAC Web界面将Raid卡固件版本升级至 16.17.00.03 非常顺利。
4. 同时升级ESXI和Raid卡固件版本只需要重启一次 非常顺利。
3、遇到的问题及处理的过程
升级第一天:
因为集群ESXI主机数量多,虚机数量也多,为了不影响虚机,只能一台一台升级。每天大概能升级4台,一切顺利。
升级第二天:
集群中升级了10台后,出现一大波虚机Hang死,相关业务部门的同事也一直抱怨大片业务中断,大概1分钟左右后自动恢复。
发现每台ESXI事件日志:
通过事件日志找到VMware一篇KB:https://kb.vmware.com/s/article/59220
KB里面所有有很多种原因可能导致这个问题,如磁盘、网络等。
KB中还说:The issue has been resolved completely of the false messages in vSAN 6.7 Update 1 onwards.
于是检查vSAN磁盘和网络都正常,没有任何异常。
于是觉得应该是集群中有ESXi 6.5u2和 6.7u3混合导致的问题,于是第二天将所有ESXi主机版本都升级至 6.7u3,并且将磁盘格式也升级完成,
一直搞到晚上11点,心想这下vSAN应该不会有问题了。
升级第三天:
第三天早上刚起床,打开手机看到半夜又是一大波虚机hang死的报错,相关业务部门的同事也一直抱怨大片业务中断。
内心奔溃中.....突然觉得尼玛vSAN产品这么不稳定的吗? 心想:看来vSAN这个产品还是不能用于生产环境。
只能继续分析ESXI主机中的hostd.log vmkernel.log 在出现问题前没有任何征兆....
只能继续Google.....终于找到一篇文章提到 https://kb.vmware.com/s/article/67732 .... 果然还是Raid卡固件惹的祸 .... 感动ing....
到DELL官网 HBA330 Mini 16.17.00.05 固件页面果然看到Fixed vSAN BUG...
于是赶紧将Raid卡330Mini的固件版本升级至 16.17.00.05.
在还剩下2台ESXI主机的Raid卡固件版本还没升级时,还是出现一大波虚机hang死的报错,当时心的凉了,心想为毛还是出现Hang死故障。
在晚上11点左右,终于将所有Raid卡330Mini固件升级至 16.17.00.05。
睡觉的时候心里一直祈祷千万别再出问题了,再出问题都不知道如何排查了,不可能将vSAN版本降级,只能从网络方面去排查VSAN网络是否有异常。
升级第四天:
第四天周六早上刚起床,立马打开手机看是否有虚机hang死的报错....结果还真没有了.... 本来想起床的...立马再睡个回笼觉....
4、经验总结
对于VMware vSAN来说...各种兼容性非常重要.....一定要结合VMware官网的兼容性列表,以及各厂家的固件或驱动Release信息。