Kubernetes探针机制详解：存活、就绪与启动探针

最新推荐文章于 2025-06-16 13:52:45 发布

原创最新推荐文章于 2025-06-16 13:52:45 发布 · 350 阅读

CC 4.0 BY-SA版权

Kubernetes探针机制详解：存活、就绪与启动探针

website Kubernetes website and documentation repo: 项目地址: https://gitcode.com/gh_mirrors/webs/website

探针概述

在Kubernetes中，探针(Probe)是用于检测容器应用状态的重要机制。通过配置不同类型的探针，Kubernetes可以更智能地管理容器生命周期，确保应用的健康运行。本文将深入解析三种核心探针：存活探针、就绪探针和启动探针。

存活探针(Liveness Probe)

核心作用

存活探针用于判断容器是否处于"存活"状态。当探针检测失败时，Kubernetes会认为容器已经"死亡"，需要重启以恢复服务。

典型应用场景

检测应用死锁：应用进程仍在运行但无法继续处理请求
检测内存泄漏：应用因内存问题导致响应异常
检测其他不可恢复错误：如数据库连接池耗尽等

工作机制

当存活探针连续失败达到指定次数(由failureThreshold参数控制)后，kubelet会重启该容器。重启策略取决于Pod的restartPolicy配置。

配置建议

对于关键业务应用，建议设置相对宽松的检测间隔(如10-30秒)
对于不稳定应用，可适当降低失败阈值(failureThreshold)
避免过于频繁的检测，以免增加系统负担

就绪探针(Readiness Probe)

核心作用

就绪探针用于判断容器是否准备好接收流量。当探针失败时，Kuberentes会将该Pod从Service的端点列表中移除，确保流量不会被路由到未准备好的Pod。

典型应用场景

应用初始化阶段：等待数据库连接建立、配置文件加载等
依赖服务检查：确保依赖的微服务可用
临时过载保护：当应用暂时无法处理更多请求时主动拒绝流量

工作机制

就绪探针在整个容器生命周期内持续运行。与存活探针不同，就绪探针失败不会导致容器重启，只是暂时将其从负载均衡池中移除。

配置建议

初始延迟(initialDelaySeconds)应足够覆盖应用启动时间
检测间隔(periodSeconds)应根据业务特点设置
超时时间(timeoutSeconds)不宜过长，通常1-3秒

启动探针(Startup Probe)

核心作用

启动探针是Kubernetes 1.16版本引入的新特性，专门用于处理慢启动容器的问题。它会在容器启动阶段临时禁用其他探针，避免在应用完全启动前被误杀。

典型应用场景

传统单体应用：启动时间较长的遗留系统
JVM应用：需要较长时间进行类加载和JIT编译
大数据处理框架：如Spark、Flink等启动较慢的系统

工作机制

启动探针仅在容器启动阶段执行，成功后即不再运行。在此期间，存活和就绪探针会被禁用，直到启动探针成功为止。

配置建议

设置足够长的failureThreshold和periodSeconds组合
通常需要比存活/就绪探针更宽松的阈值
对于已知启动时间的应用，可精确计算所需参数

探针类型对比

| 特性 | 存活探针 | 就绪探针 | 启动探针 | |------------|---------|---------|---------| | 失败后果 | 重启容器 | 移除服务端点 | 无直接影响 | | 执行周期 | 持续运行 | 持续运行 | 仅启动阶段 | | 默认启用 | 否 | 否 | 否 | | 典型检测内容| 应用核心功能 | 应用服务能力 | 应用启动完成 |