本篇由于涉及商业信息,只简述排查思路,不详述排查过程
问题现象
云硬盘备份业务偶发异常,备份云硬盘卡在备份中。
排查思路
1、检查备份程序日志
未发现异常日志,但异常备份对应的子进程,在异常时间点后未再打印日志。
2、检查异常备份对应子进程状态
从日志中拿到子进程pid
180326,查看该子进程处于<defunct>
状态。
$ ps -ef | grep 35291 | grep -v grep
root 180326 180298 0 2023 ? 13:30:28 [ebs-backup] <defunct>
3、排查子进程变成僵尸进程的原因
从messages
日志过滤该pid
:
$ sudo cat /var/log/messages | grep 180326
xxxxxx kernel: Out of memory: Kill process 180326 (ebs-backup) score 91 or sacrifice child
可见子进程成为僵尸进程的原因为系统OOM被异常kill。进一步咨询研发获悉,该版本程序存在内存泄漏问题,问题定位。
问题解决
临时解决办法,重启程序释放内存。长期解决办法,升级版本。