由于物理机异常宕机引起osd启动故障,引发ceph集群故障的修复

某存储集群因物理机电源模块故障宕机,导致osd节点无法正常启动。修复过程包括:逐个节点修复文件系统,尝试拉起osd,修复无法启动的osd,移除损坏硬盘,解决不一致问题,最终恢复集群正常运行。修复措施涉及xfs_repair、修改ceph配置、使用storcli等工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

某日凌晨,发现一个存储集群的4台存储节点(20个osd)宕机

发现是dell的四胞胎,初步排查是由于单个电源模块故障导致,

该机器存在的问题:

1:电源模块有故障

2:所有的盘做了单盘raid0的模式

3:机器已过保

4:raid卡电池推测已耗尽

5:使用了raid 缓存

 

异常宕机后导致的问题:

1:存在硬盘损坏

2:断电瞬间的缓存数据未写入磁盘

3:部分节点无法正常启动

4:部分osd节点无法自启

 

 

集群存储的问题

由于该集群为2副本,存储节点宕机比较多,宕机导致的文件系统错误导致存储不可能,产生了200多个request block.影响部分虚机的正常使用

 

修复步骤

1:一台台启动4胞胎的节点,如果进系统报文件系统问题进行xfs_repair

2:尝试拉起osd并加入集群

   可以正常拉起大约7,8个osd,其余的无法启动

3:尝试修复无法启动的osd

    修改配置文件:

vi /etc/ceph/ceph.conf

在global下增加

journal_ignore_corru

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值