某日凌晨,发现一个存储集群的4台存储节点(20个osd)宕机
发现是dell的四胞胎,初步排查是由于单个电源模块故障导致,
该机器存在的问题:
1:电源模块有故障
2:所有的盘做了单盘raid0的模式
3:机器已过保
4:raid卡电池推测已耗尽
5:使用了raid 缓存
异常宕机后导致的问题:
1:存在硬盘损坏
2:断电瞬间的缓存数据未写入磁盘
3:部分节点无法正常启动
4:部分osd节点无法自启
集群存储的问题
由于该集群为2副本,存储节点宕机比较多,宕机导致的文件系统错误导致存储不可能,产生了200多个request block.影响部分虚机的正常使用
修复步骤
1:一台台启动4胞胎的节点,如果进系统报文件系统问题进行xfs_repair
2:尝试拉起osd并加入集群
可以正常拉起大约7,8个osd,其余的无法启动
3:尝试修复无法启动的osd
修改配置文件:
vi /etc/ceph/ceph.conf
在global下增加
journal_ignore_corru