系统出现core的问题排查

1、出现core文件

core文件其实就是内存的映像,当程序崩溃时,存储内存的相应信息,主用用于对程序进行调试。当程序崩溃时便会产生core文件,其实准确的应该说是core dump 文件,默认生成位置与可执行程序位于同一目录下,文件名为core.---其中**是某一数字。

  • 1.1core文件完整

此时通过 gdb 调试core文件,即可查看到具体core的位置。但是有时候也会出现core显示位置并不是真正代码bug的地方。

  • 1.2core文件不完整

查看core文件生成功能是否打开,如下若是0,则表示没有打开。
[root@localhost ~]# ulimit -c
0

临时设置(如下设置2G,单位为kbyte)
如果生成的信息超过此大小,将会被裁剪,最终生成一个不完整的core文件。在调试此core文 件的时候,gdb会提示错误。
[root@localhost ~]# ulimit -c 4194304

永久设置
[root@localhost ~]# echo " * soft core 4194304" >> /etc/security/limits.conf
[root@localhost ~]# echo " * hard core 4194304" >> /etc/security/limits.conf

[root@localhost ~]# ulimit -a
core file size         (blocks, -c) 4194304
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 15189
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                     (-n) 65535
pipe size           (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority             (-r) 0
stack size             (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes             (-u) 102400
virtual memory         (kbytes, -v) unlimited
file locks                     (-x) unlimited

若ulimit -c unlimited,则表示core文件的大小不受限制
[root@localhost ~]# ulimit -c unlimited

core文件的名称和生成路径
core文件生成路径:
输入可执行文件运行命令的同一路径下。

若系统生成的core文件不带其它任何扩展名称,则全部命名为core。新的core文件生成将覆盖原来的core文件。

1)/proc/sys/kernel/core_uses_pid可以控制core文件的文件名中是否添加pid作为扩展。文件内容为1,表示添加pid作为扩展名,
生成的core文件格式为core.xxxx;为0则表示生成的core文件同一命名为core。
可通过以下命令修改此文件:
# echo "1" > /proc/sys/kernel/core_uses_pid

2)proc/sys/kernel/core_pattern可以控制core文件保存位置和文件名格式。
可通过以下命令修改此文件,可以将core文件统一生成到/corefile目录下,产生的文件名为core-命令名-pid-时间戳
# echo "/corefile/core-%e-%p-%t" > core_pattern

以下是参数列表:
  %p - insert pid into filename 添加pid
  %u - insert current uid into filename 添加当前uid
  %g - insert current gid into filename 添加当前gid
  %s - insert signal that caused the coredump into the filename 添加导致产生core的信号
  %t - insert UNIX time that the coredump occurred into filename 添加core文件生成时的unix时间
  %h - insert hostname where the coredump happened into filename 添加主机名
  %e - insert coredumping executable name into filename 添加命令名

 

2、未出现core文件

当没有core文件时,使用dmesg获取程序出错时的堆栈地址,用grep过滤出发生崩溃的程序,以及对应的堆栈信息.

  • 2.1 dmesg命令

[Thu Nov 25 14:39:53 2021] brpc[3714121]: segfault at 8 ip 0000000002497383 sp 00007ff8bb1fead0 error 6 in brpc[400000+37a2000]

字段说明: a) ip: 指令指针寄存器,字段后面的数字就是程序出错时程序执行的位置 b) sp: 堆栈指针寄存器 c) error:错误码,由三个字位组成的,从高到底分别为bit2 bit1和bit0 bit2: 值为1表示是用户态程序内存访问越界,值为0表示是内核态程序内存访问越界 bit1: 值为1表示是写操作导致内存访问越界,值为0表示是读操作导致内存访问越界 bit0: 值为1表示没有足够的权限访问非法地址的内容,值为0表示访问的非法地址根本没有对应的页面,也就是无效地址

  • 2.2 addr2line命令

将dmesg获取到的地址转换为代码中发成错误的文件、行号及函数名

addr2line -e 进程名 ip指令地址 -f
  • 2.3 c++filt命令

    源码文件中的变量名和函数名被修饰后,通过 c++filt 命令可以还原回来

 ```

命令:c++filt _Z5printRKSs

输出:print(std::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)

```

 

 

https://www.cnblogs.com/kevingrace/p/8243938.html

https://blog.csdn.net/carefree2005/article/details/120737841

https://blog.csdn.net/K346K346/article/details/88225726

posted @ 2022-09-01 15:17  小海哥哥de  阅读(367)  评论(0编辑  收藏  举报