热迁移虚拟机报rpc超时

问题背景：

南网生产V区，热迁移虚拟机偶发性失败。

热迁移虚拟机有时候能成功，有时候直接报错。

IMG_20220330_145922

影响热迁移功能

现场反馈源节点7需要做停机整改，所以需要将源节点7上的虚拟机热迁移走。现在迁移成功两台，然后再迁移就报错了。
看到nova-compute报错第一时间想到是rabbitmq集群可能有问题，让现场检查了下rabbitmq集群状态和消息队列是否有堆积。结果是集群状态正常，消息队列无堵塞

b462562ed1c1be438f0eb22e689cf896

fce864658a76f4d75eea4d2b48122939

3、然后想的是网络超时问题，让现场检查了下neutron.conf配置文件中的rpc_response_timeout配置。结果是优化了的，默认60，他们配置的600

f41a553f3d6633cfa61a04e952a1ba28

让现场检查下nova manager和schduler等相关日志。在schduler日志中提示无法指定调度策略，但是想了下有迁移成功的虚拟机，应该和这个发现没啥关系。

IMG_20220330_154023

a82687bf5ffbcf37b0b2a7aa021d609f

IMG_20220330_160122

a4e4870760df0a1a90163e862731b6a4

633bb18161d3f1f2f16a6681135d3bdf

8、找现场确认今天迁移成功两台虚拟机前后是否有改动什么配置，现场反馈没有。然后现场测试换一台目标主机再热迁移，发现还是提示超时。

三线排查：

改为300（现场改成600）重启nova 服务

posted @ 2023-04-25 11:16 XU-NING 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部