生成coredump
当程序运行出现如下错误时:
1 | Program terminated with signal 11, Segmentation fault (core dumped). |
系统会提示有coredump产生,但通常我们在系统文件夹下并找不到core文件,是因为系统设置产生core文件大小为0,也即不会产生,所以我们这里可以做一些简单的设置:
设置core文件产生在当前目录,%e
表示产生core文件的程序名,%p
为pid号:
1 | echo "core.%e.%p" > /proc/sys/kernel/core_pattern |
查看当前core文件设置的大小:
1 | ulimit -c |
设置core文件大小为无限制:
1 | ulimit -c unlimited |
ulimit -a
可以显示出/etc/security/limits.conf
中定义的所有限制选项。
注意:通过命令修改的该限制只在当前session有效,修改的core_pattern也会在系统重启后消失
所以,如果想每次开机都有交,可以加到profile
或者直接修改文件/etc/security/limits.conf
coredump文件实际上ELF格式,所以也可以使用readelf来查看其信息,如:查看ELF头,会发现其中Type
为CORE
:
1 | $ readelf -h core.test.29673 |
查看所有core文件相关的当前配置
1 | # sysctl -a| grep core |
所以,同样可以通过sysctl来修改kernel.core_pattern:
1 | sysctl -w kernel.core_pattern=core.%e.%p |
该修改依然会在重启后消失
sysctl会从/etc/sysctl.conf
中读取配置,也可以通过修改该文件中的配置来使core相关配置永久生效,在/etc/sysctl.conf
中加入:
1 | kernel.core_pattern=core.%e.%p |
gdb调试coredump文件
进入coredump
首先记得编译可执行文件时使用-g
参数产生可调试信息。
有以下两种方式来快速定位产生错误的程序位置:
1)
1 | gdb 可执行文件 core文件 |
2)
1 | gdb -c core文件 |
进入core文件的调试,然后使用
1 | file 可执行文件 |
快速定位到出错位置
进入coredump调试之后输入where
(或者backtrace
,简写bt
)即可快速定位到出错的地方,当然这个时候常用的gdb调试命令也都是可用的
coredump文件的调试命令
显示所有线程:
1 | info threads |
显示线程堆栈信息:
1 | bt # 即backtrace,与上面的where功能一样 |
切换线程:
1 | thread thread_num |
切换栈:
1 | frame num |
上面使用bt或者where时,会有很多编号,该命令可以切换到相应的栈去查看具体出错代码
显示当前帧的寄存器信息 (每一帧的寄存器信息都是不相同的):
1 | info r |
其他问题
signal
当我们加载core文件之后,往往可以看到gdb的输出中有这样一句:
1 | Program terminated with signal 11, Segmentation fault. |
这里的signal 11
对应于名称为SIGSEGV
,表示”试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据.”
命令:kill -l
可以列出所以的singal和对应的编号,下面是从网上某处找到的常用信号及其对应功能
,其中的kill -9
大家应该都不陌生。
1) SIGHUP
本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。
登录Linux时,系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序,包括前台进程组和后台进程组,一般都属于这个Session。当用户退出Linux登录时,前台进程组和后台有对终端输出的进程将会收到SIGHUP信号。这个信号的默认操作为终止进程,因此前台进程组和后台有终端输出的进程就会中止。不过可以捕获这个信号,比如wget能捕获SIGHUP信号,并忽略它,这样就算退出了Linux登录,wget也能继续下载。
此外,对于与终端脱离关系的守护进程,这个信号用于通知它重新读取配置文件。
2) SIGINT
程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出,用于通知前台进程组终止进程。
3) SIGQUIT
和SIGINT类似, 但由QUIT字符(通常是Ctrl-/)来控制. 进程在因收到SIGQUIT退出时会产生core文件, 在这个意义上类似于一个程序错误信号。
4) SIGILL
执行了非法指令. 通常是因为可执行文件本身出现错误, 或者试图执行数据段. 堆栈溢出时也有可能产生这个信号。
5) SIGTRAP
由断点指令或其它trap指令产生. 由debugger使用。
6) SIGABRT
调用abort函数生成的信号。
7) SIGBUS
非法地址, 包括内存地址对齐(alignment)出错。比如访问一个四个字长的整数, 但其地址不是4的倍数。它与SIGSEGV的区别在于后者是由于对合法存储地址的非法访问触发的(如访问不属于自己存储空间或只读存储空间)。
8) SIGFPE
在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。
9) SIGKILL
用来立即结束程序的运行. 本信号不能被阻塞、处理和忽略。如果管理员发现某个进程终止不了,可尝试发送这个信号。
10) SIGUSR1
留给用户使用
11) SIGSEGV
试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据.
12) SIGUSR2
留给用户使用
13) SIGPIPE
管道破裂。这个信号通常在进程间通信产生,比如采用FIFO(管道)通信的两个进程,读管道没打开或者意外终止就往管道写,写进程会收到SIGPIPE信号。此外用Socket通信的两个进程,写进程在写Socket的时候,读进程已经终止。
14) SIGALRM
时钟定时信号, 计算的是实际的时间或时钟时间. alarm函数使用该信号.
15) SIGTERM
程序结束(terminate)信号, 与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出,shell命令kill缺省产生这个信号。如果进程终止不了,我们才会尝试SIGKILL。
17) SIGCHLD
子进程结束时, 父进程会收到这个信号。
如果父进程没有处理这个信号,也没有等待(wait)子进程,子进程虽然终止,但是还会在内核进程表中占有表项,这时的子进程称为僵尸进程。这种情况我们应该避免(父进程或者忽略SIGCHILD信号,或者捕捉它,或者wait它派生的子进程,或者父进程先终止,这时子进程的终止自动由init进程来接管)。
18) SIGCONT
让一个停止(stopped)的进程继续执行. 本信号不能被阻塞. 可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作. 例如, 重新显示提示符
19) SIGSTOP
停止(stopped)进程的执行. 注意它和terminate以及interrupt的区别:该进程还未结束, 只是暂停执行. 本信号不能被阻塞, 处理或忽略.
20) SIGTSTP
停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号
21) SIGTTIN
当后台作业要从用户终端读数据时, 该作业中的所有进程会收到SIGTTIN信号. 缺省时这些进程会停止执行.
22) SIGTTOU
类似于SIGTTIN, 但在写终端(或修改终端模式)时收到.
23) SIGURG
有”紧急”数据或out-of-band数据到达socket时产生.
24) SIGXCPU
超过CPU时间资源限制. 这个限制可以由getrlimit/setrlimit来读取/改变。
25) SIGXFSZ
当进程企图扩大文件以至于超过文件大小资源限制。
26) SIGVTALRM
虚拟时钟信号. 类似于SIGALRM, 但是计算的是该进程占用的CPU时间.
27) SIGPROF
类似于SIGALRM/SIGVTALRM, 但包括该进程用的CPU时间以及系统调用的时间.
28) SIGWINCH
窗口大小改变时发出.
29) SIGIO
文件描述符准备就绪, 可以开始进行输入/输出操作.
30) SIGPWR
Power failure
31) SIGSYS
非法的系统调用。
在以上列出的信号中,程序不可捕获、阻塞或忽略的信号有:SIGKILL,SIGSTOP
不能恢复至默认动作的信号有:SIGILL,SIGTRAP
默认会导致进程流产的信号有:SIGABRT,SIGBUS,SIGFPE,SIGILL,SIGIOT,SIGQUIT,SIGSEGV,SIGTRAP,SIGXCPU,SIGXFSZ
默认会导致进程退出的信号有:SIGALRM,SIGHUP,SIGINT,SIGKILL,SIGPIPE,SIGPOLL,SIGPROF,SIGSYS,SIGTERM,SIGUSR1,SIGUSR2,SIGVTALRM
默认会导致进程停止的信号有:SIGSTOP,SIGTSTP,SIGTTIN,SIGTTOU
默认进程忽略的信号有:SIGCHLD,SIGPWR,SIGURG,SIGWINCH
此外,SIGIO在SVR4是退出,在4.3BSD中是忽略;SIGCONT在进程挂起时是继续,否则是忽略,不能被阻塞