在 Kubernetes 集群中,故障节点可能导致 Pod 无法正常运行或资源分配异常。以下是排查集群中故障节点的常用方法:
1. 使用 kubectl get nodes
查看节点状态
首先检查所有节点的健康状态,kubectl get nodes
命令会显示集群中所有节点的状态。
kubectl get nodes
输出示例:
NAME STATUS ROLES AGE VERSION
node1 Ready <role> 10d v1.24.0
node2 NotReady <role> 10d v1.24.0
- STATUS 列:节点状态,包括
Ready
、NotReady
、Unknown
等。如果节点处于NotReady
或Unknown
状态,可能存在网络、资源或节点本身的问题。
2. 查看节点详细信息和事件
kubectl describe node <node-name>
命令可用于查看故障节点的详细信息和事件日志。
kubectl describe node <node-name&g