前言:
最近在做Windows节点加入K8S集群的事情踩了太多太多的坑,按照官方给的文档,如果是新环境,那么坑应该很少,无外乎一些组件程序下载失败的问题,这个都可以通过梯子
解决;若不是干净的环境,那么这个坑有的踩,下边记录一下遇到的所有坑。
1 安装步骤
按照官方要求,Kubernetes 服务器版本必须不低于版本 1.17。
我这里用的K8s版本是1.17.5,windows版本是server 2019。
推荐两篇文章:
运行PrepareNode.ps1
文件,如果执行失败,删除C盘根目录下etc、run、var、opt
,k 目录可以保留。
2 踩的坑
(1)下载的问题kubelet、kubeadm、wins下载失败
这几个包会经常下载失败,建议提前单独下载好,放置到C:\k\
目录下,修改PrepareNode.ps1
powershell脚本,把下载的几条命令注释掉
<#
DownloadFile $kubeletBinPath https://dl.k8s.io/$KubernetesVersion/bin/windows/amd64/kubelet.exe
DownloadFile "$global:KubernetesPath\kubeadm.exe" https://dl.k8s.io/$KubernetesVersion/bin/windows/amd64/kubeadm.exe
DownloadFile "$global:KubernetesPath\wins.exe" https://github.com/rancher/wins/releases/download/v0.0.4/wins.exe
#>
(2)New-NetFirewallRule : Cannot create a file when that file already exists.
这个错是由于我们之前执行过PrepareNode.ps1
脚本成功之后,已经在防火墙入站规则中添加过规则条目了,出现这个报错可以忽略,如果担心的话就打开控制面板:Control Panel-->System and Security-->Windows Defender Firewall-->Advanced settings-->Inbound Rules
找到kubelet 规则,删除即可。
(3)windows镜像下载失败,如sigwindowstools/kube-proxy:v1.17.5-nanoserver
这个镜像在hub.docker.com
中是有的,下载之前需要自己在此网站注册一个账号,然后手动pull
# docker login 默认就会登录hub.docker.com,后边无需再跟此地址
C:\Users\Administrator> docker login
Login with your Docker ID to push and pull images from Docker Hub. If you don't have a Docker ID, head over to https://hub.docker.com to create one.
Username: rsqlh
Password:
Login Succeeded
C:\Users\Administrator> docker pull sigwindowstools/kube-proxy:v1.17.5-nanoserver
(4)flannel报错:rpc error: code = Internal desc = could not create IP forward entry: The object already exists.
还有如下报错:
Failed to find any valid interface to use: failed to get default interface: json: cannot unmarshal array into Go value of type struct { IfIndex int "json:\"ifIndex\"" }
Couldn't fetch network config: client: etcd cluster is unavailable or misconfigured; error #0: dial tcp 127.0.0.1:2379: i/o timeout
; error #1: dial tcp 127.0.0.1:4001: i/o timeout
如上这些报错都是由于flannel没有识别到windows的网卡所导致的,有可能有些机器的网卡名称特别古怪,形如vEthernet (NIC)
这些flannel在进行序列化的时候都会报错,解析不了这个网卡名字,所以就需要我们手动在flannel-overlay.yml
文件中指定具体网卡名称。
# -iface 指定具体网卡名称
# -iface-regex 后边可以跟网卡通配符
wins cli process run --path /k/flannel/flanneld.exe --args "--kube-subnet-mgr --iface=NIC1 --kubeconfig-file /k/flannel/kubeconfig.yml" --envs "POD_NAME=$env:POD_NAME POD_NAMESPACE=$env:POD_NAMESPACE"
(5)重新初始化windows节点的时候kubelet跟rancher-wins服务如何删除干净
# 在PowerShell中执行sc delete并没有报错(没有任何提示),但是实际上服务并没有被删除。
# 这是因为在 PowerShell 中,sc 是 cmdlet Set-Content 的别名,应该这样使用(加上 .exe):
sc delete kubelet
sc delete rancher-wins
# 正确命令如下
sc.exe delete kubelet
sc.exe delete rancher-wins