【YashanDB知识库】EXP导致主机卡死问题

问题现象

问题单：exp导出全库1主2备主节点执行，DMP文件30G左右系统卡死，发生主备切换

现象：

exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死，ssh连接不上服务器。
等待一两个小时后，可以重新连接上。
备用节点升主正常，查看run.log，心跳发送不到主节点。
重连后，yasdb不在，查看run.log没有问题。未生成core文件，yasagent进程等正常。

问题风险及影响

不能exp数据，数据迁移失败

问题影响的版本

客户测试环境版本：23.1.4.101

问题发生原因

exp导出数据时，大量数据从磁盘放到data buff，导致实际使用内存增长，超过系统限定后，触发oom导致yasdb被杀。

问题分析和处理过程

分析：

因为磁盘是nfs，初步怀疑是否是nfs导致网络问题。但换其它磁盘后，也出现同样问题。
因为数据是从22.2.7.2使用exp导出，imp导入23.1。现在exp导出出问题，怀疑是否是兼容性问题。本地同样方式操作，未复现成功。pstack查看堆栈空间，gdb调试显示正常，也没有core文件生成。
查看服务器message信息，发现yasdb都是被killed。怀疑是yasdb使用太多内存资源导致的问题，最终确认是这个原因。

查看服务器内存资源

free -h

查看yasd buff情况

测试

在10.34.70.91节点：

尝试如下：

● 开启swap空间为20G，DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● SWAP空间关闭。DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● 开启swap空间为40G。DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● swap不开，DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死，直到yasdb被killed，才能重新连接上去

在10.34.70.78节点：

尝试如下：

● swap空间为30G，

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

解决方法和规避

规避方法

有两种，可以单独配置，也可以两个同时做：

开启swap空间

swapoff -a
dd if=/dev/zero of=/swap bs=1M count=30720
mkswap /swap
chmod 600 /swap
swapon /swap
sysctl -w vm.swappiness=60
 
永久开启swap：
vi /etc/fstab添加如下：
/swap swap swap defaults 0 0

把DATA_BUFFER_SIZE调低，不要超过总内存的60%。

alter system set DATA_BUFFER_SIZE=xxx SCOPE=SPFILE;

core文件配置

echo "ulimit -c unlimited" >> /etc/profile
source /etc/profile
mkdir -p /data/corefile
chmod 777 /data/corefile/
echo "/data/corefile/core-%e-%p-%t" >> /proc/sys/kernel/core_pattern
echo "kernel.core_pattern=/data/corefile/core-%e-%p-%t" >> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

经验总结

yasdb数据内存使用一般设定在系统的60%左右较好，data buff一般设置为yasdb内存的80%。
遇上yasdb不存在了，但是没有生成core。很有可能就是被系统kill掉了，这时可以先去看/var/log/message信息，核实改问题。

posted @ 2024-07-23 14:49 YashanDB 阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

YashanDB

【YashanDB知识库】EXP导致主机卡死问题

问题现象

问题风险及影响

问题影响的版本

问题发生原因

问题分析和处理过程

分析：

查看服务器内存资源

查看yasd buff情况

测试

解决方法和规避

经验总结

公告