关键词
- linux、centos
- cpu load、cpu iowait、sar监控、大页内存
-
vm.dirty_background_ratio、vm.dirty_ratio、vm.min_free_kbytes
There are many things that can not be broken!
如果觉得本文对你有帮助,欢迎点赞、收藏、评论!
一、问题现象
某数据库主机接连在几天里出现莫名hang死现象,造成业务中断,故障时间段,出现数据库连接数升高,cpu有陡增,cpu iowait time陡增,从监控曲线看cpu load负载过高,并伴随有大量的IO操作、事务等待会话、tps以及慢SQL,由于负载升高导致数据库自动主从切换失败,造成业务一定的中断影响。
二、问题分析
1、在集中复盘这几次故障中,发现故障主机几次故障之前出现过剩余内存严重不足情况,主机内存:377G,几乎耗尽,将故障原因怀疑的方向定位在是zone内存剩余达到min水位线导致直接内存回收,用户申请内存被阻塞,只有内核态可以正常申请剩余内存。