小李哥又又又上官网了,这次登上的是Cloud Native Computing Foundation(CNCF)云原生软件基金会的官网,这次获得的CNCF称号是Kubestronaut。目前大陆地区共有36位Kubestronaut,美国176位Kubestronaut,能成为全球Kubestronaut中的一员特别荣幸和开心。
✅CNCF是什么?
CNCF是全球最大和最顶尖的软件基金会之一,和Apache、Eclipse并称全球软件基金会三巨头。从事软件开发和运维的小伙伴们对CNCF肯定非常熟悉,从CNCF基金会毕业的项目包括大名鼎鼎的Kubernetes(K8s)、Prometheus、OpenTelemetry、Istio等。CNCF基金会的主要目的是推动云原生技术和社区的发展。
✅为了成为Kubestronaut我做了什么?
只能说获得kubestronaut的称号真的不容易,大家可以在下图看到我在官网的个人介绍。为了准备成为kubestronaut,真的用了一切方法学习和深耕云原生。不单纯是学习k8的基础知识,做K8s的动手模拟实验,同时我也不断在各个博客平台分享AWS上的云原生方案,围绕EKS on AWS、ECS、Lambda、Fargate等AWS服务。也很幸运在在AWS的全球云计算大会 re:Invent 2024、全球安全大会AWS re:Inforce 2025、和2024年与2025年的中国峰会AWS Summit上演讲,为AWS开发者带来国际前沿的云原生方案。
下个月我也会在亚马逊云科技UG云原生SIG兴趣小组中,带来K8sGPT集成Bedrock实现AIOps的方案。基础知识,加上行业视野,这些都为我打下了成为Kubestronaut的坚实基础。
✅如何成为Kubestronaut?
成为CNCF的kuberstronaut,需要通过CNCF的5门关于Kubernetes的考试,5门考试分别见下图:
Kubernetes and Cloud Native Associate(KCNA)
是云原生基础认证,理论考试,涵盖Kubernetes及其生态工具的基础概念与原理,适合入门者建立对云原生架构的整体理解。
Kubernetes and Cloud Native Security Associate(KCSA)
云原生安全基础认证,重点聚焦于Kubernetes组件安全、工作负载安全,以及合规与安全框架的基本知识。
以上两门都是理论考试,考试都是选择题,比较简单,建议先从这两门入手。
Certified Kubernetes Application Developer(CKAD)
Kubernetes应用开发者认证,面向开发者,帮助理解如何在 Kubernetes 集群中部署、管理、扩展和保护应用。
Certified Kubernetes Administrator(CKA)
Kubernetes 管理员认证,面向集群管理员,重点在于如何管理 Kubernetes 组件,确保系统的可扩展性、高可用性与安全性。
Certified Kubernetes Security Specialist(CKS)
Kubernetes 安全专家认证,专注于 Kubernetes 中的组件安全与工作负载部署安全,同时覆盖生态系统中各类安全工具的实战应用。
上面3门都是实操考试,需要在2小时内完成16-20道实操题,难度较大,需要大家实操练熟练后再去考。
✅如何准备Kubernetes的考试?
因为k8s的考试是实操考试,要在2小时内做完16-20道场景实验题目,难度非常大,所以找对复习方法很重要,要多动手实践才能过。
报名考试会送2次killer.sh实验模拟题,大概有20题,和考试很像,每次36小时,做完能懂基本就能过了。
另外如果觉得实验题不够练,还可以去kodekloud上找很多题做。如果对基础知识不了解,官网提供了很多官方的网课可以学习k8s基础知识,夯实基础应对考试。
✅我将在亚马逊云科技UG分享的当下的热门云原生AIOps方案是什么?
这次要分享的方案是通过将CNCF目前正在沙箱的项目K8sGPT与亚马逊云科技的AI托管服务Amazon Bedrock集成。它通过扫描集群并结合AI模型(如Anthropic Claude、OpenAI、Amazon SageMaker的定制与开源模型),用自然语言即可生成清晰可理解的诊断建议,从而彻底革命了 Kubernetes的传统运维。不止于基础排障,K8sGPT还具备类SRE的智能自愈能力:它能持续追踪集群状态的变更,结合风险阈值做出自动响应,并通过Mutation CR支持回滚机制。此外其内置的MCP服务器,也支持与AI运维助手建立结构化、实时、可持续的自然语言交互,实现持续集群分析与操作自动化。
K8sGPT Operator 架构解析
下图展示的就是我将介绍的方案架构:在EKS集群中安装K8sGPT Operator,通过Amazon Bedrock模型实时分析和解释来自集群的异常诊断结果,帮助用户理解问题根源并优化工作负载。用户仅需通过kubectl
等标准Kubernetes命令即可获取Operator生成的智能分析结果。
所有模型调用日志,包括详细的诊断信息,都会记录在亚马逊云科技的日志服务CloudWatch中,便于后续追踪与审计分析。
在这种部署模式下,用户无需额外安装任何 CLI 工具(除了常用的 kubectl
),而且用户当前使用的SSO角色不需要具备Amazon Bedrock的访问权限。因为Operator会自动使用集群内配置的最小角色IAM权限,来代表用户安全地调用Amazon Bedrock的大语言模型。
最后便于大家理解,附上亚马逊云科技上创建云原生EKS集群的yaml配置文件:
cat >cluster-config.yaml <<EOF
apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata:
name: eks
region: us-west-2
version: "1.32"
tags:
environment: eks
iam:
withOIDC: true
podIdentityAssociations:
- namespace: kube-system
serviceAccountName: cluster-autoscaler
roleName: pod-identity-role-cluster-autoscaler
wellKnownPolicies:
autoScaler: true
managedNodeGroups:
- name: managed-ng
instanceType: m5.large
minSize: 2
desiredCapacity: 3
maxSize: 5
privateNetworking: true
volumeSize: 30
volumeType: gp3
tags:
k8s.io/cluster-autoscaler/enabled: "true"
k8s.io/cluster-autoscaler/eks: "owned"
addonsConfig:
autoApplyPodIdentityAssociations: true
addons:
- name: eks-pod-identity-agent
tags:
team: eks
- name: vpc-cni
version: latest
- name: aws-ebs-csi-driver
version: latest
- name: coredns
version: latest
- name: kube-proxy
version: latest
cloudWatch:
clusterLogging:
enableTypes: ["*"]
logRetentionInDays: 30
EOF
eksctl create cluster -f cluster-config.yaml
希望这次的分享大家能够喜欢,对AI应用在云原生场景感兴趣的小伙伴,欢迎关注我,未来将持续探索更多的AI与云原生集成的国际前沿创新方案!